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掘 的 核心 问题 进行 了 总 结 ,并 以 保险 推荐 为 例 说 明 数 据 挖掘 过 程 中 每 个 步骤 需要 关注 之 处 ; 然后 ,结合 香 
水 销售 分 析 ,讨论 可 视 化 图 形 的 基本 应 用 。 为 增强 本 书 的 实用 性 ,提高 读者 的 动手 能 力 , 后 续 章 节 详 细 地 
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经 网 络 在 音频 数据 处 理 方面 的 实际 应 用 。 

本 书 内 容 深 入 浅 出 ,案例 生动 形象 ,可 以 作为 高 校 相 关 专业 “数据 挖掘 ”“ 机 器 学 习 ”“ 商 务 数据 分 析 ” 等 
课程 的 实验 教材 ,也 可 以 供 学 习 数 据 分 析 的 社会 人 士 参考 。 
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FOREWORD 


目前 ,高 校 的 数据 分 析 类 课程 (如 数据 挖掘 、 机 器 学 习 、 大 数据 分 析 等 ) 教 学 方式 大 多 以 
“知识 点 ”为 核心 组 织 教 学 ,学 生 主 要 以 学 习 知识 为 主 ,工程 应 用 实践 机 会 较 少 。 教 师 将 所 要 
教授 的 知识 点 在 课堂 上 讲述 , 课 后 再 以 作业 练习 .课程 实验 .课程 设计 等 形式 帮助 学 生 深入 
理解 课堂 上 所 学 的 知识 。 尽 管 为 提高 教学 效果 ,目前 许多 高 校 尝试 了 大 型 开放 式 网 络 课程 
(Massive Open Online Course, MOOC) ,翻转 课堂 移动 课堂 .同伴 学 习 和 小 规模 限制 性 在 
线 课 程 (Small Private Online Course,SPOC) 等 教学 方法 的 改革 .但 总 体 上 来 说 ,对 于 应 用 
性 较 强 的 课程 教学 ,还 存在 改进 的 空间 ,尤其 是 对 学 生 的 动手 实践 能 力 要 求 较 高 的 数据 分 析 
类 课程 。 现 有 的 教学 方法 在 传授 理论 知识 时 ,缺少 实际 应 用 环节 的 支持 ,学 生 缺 少 在 实际 应 
用 的 背景 下 充分 理解 所 学 知识 的 机 会 ,难以 培养 学 生 应 用 专业 知识 分 析 解 决 问 题 的 技能 和 
创新 思维 能 力 。 

数据 分 析 的 方法 是 科学 ,但 这 些 方法 的 选择 和 应 用 过 程 因 问题 而 异 , 带 有 很 强 的 艺术 
性 。 在 现 有 专业 课程 教学 模式 下 ,学 生 仅仅 了 解 需要 学 习 基 本 的 理论 知识 ,缺少 实践 动手 经 
历 , 难 以 获得 这 些 知 识 的 应 用 技巧 ,很 少 接触 与 企业 实际 项 目 相关 的 内 容 , 因 此 学 生 的 应 用 
能 力 较 弱 ,与 企业 实际 的 需求 脱节 。 例 如 ,在 “数据 分 析 ” 课 程 中 ,一 般 的 教学 方式 是 教师 将 
具体 数据 分 析 的 方法 教授 给 学 生 , 学 生 能 够 理解 算法 或 方法 的 内 容 , 但 难以 解决 实际 项 目 中 
应 用 具体 算法 碰 到 的 问题 。 目 前 吸 待 克服 数据 分 析 类 课程 教学 脱离 企业 所 需 能 力 的 培养 痛 
点 ,在 课程 学 习 的 知识 基础 上 ,解决 实际 问题 ,引导 学 生 解 决 数据 分 析 实 际 问题 的 必要 技能 


实际 上 ,数据 分 析 绝 大 部 分 的 教材 和 书籍 还 基本 停留 在 基本 理论 和 方法 的 介绍 ,实验 部 
分 的 内 容 比较 简单 或 者 缺失 ,实际 应 用 的 内 容 不 足 。 还 有 些 实战 性 的 书籍 没有 按照 教材 的 
方式 编写 ,案例 也 比较 粗略 ,数据 分 析 过 程 中 的 一 些 技能 解释 肤浅 。 有 关 实 际 项 目 中 数据 分 


者 与 多 家 企业 合作 ,在 数据 分 析 领域 辛 苦 耕 耘 ,亲自 参与 了 多 个 实际 数据 分 析 项 目 ,熟悉 数 
据 分 析 过 程 的 酸甜苦辣 ,希望 通过 本 教材 弥补 国内 数据 分 析 实 用 教材 的 不 足 , 也 希望 本 教材 
的 出 版 能 改善 国内 数据 分 析 类 课程 教学 资料 短缺 的 情况 。 

学 习 数 据 分 析 的 最 好 方法 就 是 做 中 学 ,使 用 实际 数据 解决 实际 问题 ,而 不 是 单纯 学 习 技 
术 。 实 际 上 ,有 效 的 数据 分 析 需 要 对 业务 进行 深入 理解 ,在 此 基础 上 形成 有 效 的 分 析 思 路 ， 
并 通过 实验 反复 比较 ,才能 真正 解决 客户 的 问题 。 在 数据 时 代 , 现 实 应 用 中 往往 不 乏 数 据 。 
从 生活 中 的 小 数据 、 简 单 问 题 开始 ,做 各 种 假设 ,探索 其 中 的 规律 。 不 断 尝 试 常用 的 分 析 语 
言 、 工 具 和 技术 ,在 应 用 中 不 断 学 习 新 的 知识 ,弥补 课堂 教学 的 不 足 ,尤其 是 体会 数据 分 析 过 
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程 中 书本 上 难得 看 到 的 分 析 技 巧 ,并 在 应 用 中 举一反三 。 如 此 反复 , 随 着 分 析 问 题 的 深入 ， 
不 断 提高 分 析 能 力 ,体会 数据 分 析 的 艰辛 和 解决 客户 问题 的 快乐 。 

本 教材 不 局 限于 数据 分 析 基 本 理论 和 基本 方法 的 介绍 ,而 是 立足 实际 应 用 ,突出 实际 数 
据 分 析 项 目 中 的 思路 ,以 及 数据 分 析 中 的 难点 。 但 希望 读者 具有 一 定 的 统计 学 、 机 器 学 习 
(数据 挖掘 ) .数据 科学 ,以 及 必要 的 相关 专业 知识 。 也 不 追求 过 多 的 案例 堆积 ,希望 读者 能 
理解 数据 分 析 的 思路 ,举一反三 。 这 些 内 容 是 作者 多 年 项 目 实践 和 教学 成 果 的 总 结 , 其 中 的 
分 析 思 路 只 有 参与 实际 的 项 目 ,才能 体验 到 数据 分 析 的 难点 和 艺术 性 ,这 是 目前 教学 过 程 中 
培养 学 生 工 程 性 思维 的 重要 问题 ,也 是 真正 提高 学 生 创新 能 力 和 动手 能 力 的 手段 。 这 些 内 
容 是 数据 分 析 的 基础 ,也 是 从 事 大 数据 分 析 必 须 掌握 的 知识 和 技能 。 有 关 数 据 挖掘 常用 算 
法 的 介绍 ,读者 可 以 参阅 作者 已 经 出 版 的 教材 (商务 智能 (第 4 版))( 清 华 大 学 出 版 社 ,2016 
年 ) 或 其 他 专业 书籍 。 

全 书 分 为 11 章 , 具 体 的 内 容 简介 如 下 : 

第 1 章 从 数据 分 析 的 流程 出 发 ,讨论 了 在 数据 分 析 各 个 阶段 需要 做 的 工作 以 及 经 常 遇 
到 的 主要 问题 ,尤其 是 数据 挖掘 算法 使 用 时 容易 遇 到 的 难题 。 数 据 挖掘 过 程 有 一 定 的 标准 ， 
但 是 针对 具体 的 业务 需求 ,如 何 设计 合理 ` 有 效 的 数据 分 析 流程 ,需要 有 一 定 的 经 验 和 技巧 ， 
数据 的 预 处 理 、 算 法 的 选择 等 主要 步骤 都 充分 体现 了 数据 挖掘 的 艺术 性 。 

第 2 章 以 保险 产品 推荐 项 目 为 例 ,突出 了 数据 挖掘 选择 合适 的 算法 并 非 很 简单 的 事情 ， 
需要 在 理解 分 析 问 题 以 及 对 多 种 算法 熟悉 的 基础 上 ,通过 实验 对 初 选 的 几 种 算法 进行 比较 、 
调 优 ,才能 选择 对 解决 问题 效果 比较 好 的 算法 。 

第 3 章 介 绍 了 多 维 分 析 常 用 的 可 视 化 图 形 , 这 是 数据 分 析 的 基本 功 。 这 些 图 形 可 以 帮 
助 数据 分 析 师 探索 数据 , 找 出 数据 中 存在 的 问题 以 及 基本 规律 。 

第 4 章 介 绍 了 IBM SPSS Modeler 18 数据 挖掘 工具 的 常用 组 件 。 在 学 习 数 据 分 析 的 不 
同 阶段 ,根据 学 习 者 的 基础 ,问题 的 分 析 难 度 等 ,可 以 选择 不 同 的 工具 或 平台 。 尽 管 分 析 工 
具 并 不 是 数据 挖掘 最 重要 的 事情 ,但 学 习 成 本 低 .功能 强大 的 分 析 工 具 对 于 问题 的 解决 也 是 
不 可 少 的 。 对 于 编程 基础 有 限 的 数据 分 析 师 ,可 以 选择 类 似 IBM SPSS Modeler 18 的 挖掘 
工具 或 TensorFlow 等 开源 工具 。 尽 管 如 此 ,对 于 有 一 定数 据 分 析 基 础 的 读者 ,推荐 学 习 
Python 、R 等 针对 数据 分 析 的 语言 ,这 些 语言 比较 灵活 ,功能 也 十 分 强大 。 

第 5 章 对 香水 的 销售 数据 进行 分 析 , 讨 论 受 欢 迎 的 香水 以 及 特点 ,并 找 出 影响 香水 销售 
的 主要 因素 ,为 香水 的 营销 提供 依据 。 

第 6 章 对 银行 的 客户 信用 记录 、 申 请 客户 信息 、 拖 欠 历史 记录 、 消 费 历 史记 录 等 人 口 属 
性 、 交 易 数 据 进行 综合 分 析 ,讨论 用 户 银行 信用 卡 拖欠 和 欺诈 行为 特征 ,为 银行 推广 信用 卡 
以 及 风险 管理 提供 依据 。 

第 7 章 从 大 众 点 评 网 抓 取 火 锅 店 海底 捞 的 菜品 介绍 以 及 客户 评论 数据 ,以 客户 为 中 心 ， 
分 析 客 户 对 火锅 的 偏好 ,为 火锅 店 的 选 址 .菜品 的 选择 和 设计 ,以 及 火锅 店 的 竞争 力 都 提供 
了 参考 。 

第 8 章 以 携程 网 上 某 商务 宾馆 的 客户 评分 .评论 数据 为 基础 ,通过 情感 分 析 , 分 析 了 客 
户 对 商务 宾馆 的 偏好 ,并 了 解 客户 的 消费 行为 ,比较 多 家 商务 宾馆 的 竞争 优 劣 势 ,为 商务 宾 
馆 改 进 经 营 提 供 了 参考 。 

第 9 章 在 某 耐 热 导线 工厂 最 近 2 年 的 质量 管理 数据 的 基础 上 ,分 析 了 这 些 数据 存在 的 


前 言 


问题 ,探索 耐 热 导线 的 加 工 流程 中 几 个 工序 之 间 半 成 品 或 成 品质 量 指标 的 关系 ,提高 最 终 产 
品 的 合格 率 。 

第 10 章 利用 公安 人 口 数据 和 违法 犯罪 人 员 行 为 特点 的 数据 ,建立 风险 评分 模型 ,实现 
对 高 危 人 群 的 特征 分 析 , 识 别 具 有 违法 .犯罪 .可 疑 或 可 能 的 高 危 人 员 。 

第 11 章 讨论 深度 学 习 在 音频 处 理 领域 的 应 用 ,介绍 了 常用 的 深度 神经 网 络 模型 ,重点 
分 析 卷 积 神经 网 络 在 音频 质量 评价 领域 的 应 用 。 

数据 挖掘 是 一 个 多 学 科 交叉 的 领域 ,本 书 通过 少数 实际 的 具体 案例 ,阐述 数据 分 析 项 目 
的 过 程 以 及 一 些 要 点 ,可 作为 普通 高 等 学 校 “ 数 据 挖掘 “商务 数据 分 析 ”“ 商 务 智能 ”等 课程 
的 案例 和 实验 指导 材料 ,也 可 供 有 志 于 数据 分 析 师 的 读者 参考 。 配 套 实 验 数 据 、 源 代码 、 软 
件 等 可 以 从 清华 大 学 出 版 社 网 站 下 载 。 由 于 作者 水 平 有 限 , 书 中 难免 有 错误 之 处 ,希望 读者 
不 音 指出 。 

在 写作 的 过 程 中 , 胡 远 文 .于 召 奔 、 黄 黎明 、 消 实 . 朱 荣 斌 等 在 资料 收集 方面 做 了 一 些 工 
作 , 在 此 表示 感谢 。 
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数据 分 析 过 程 的 主要 问题 


数据 分 析 是 一 种 人 门 容易 但 要 精通 却 很 难 的 学 科 。 做 好 数据 分 析 并 非 依赖 于 某 一 种 技 
术 或 方法 ,其 关键 是 分 析 思 路 ,通过 对 业务 进行 调研 ,思考 过 程 具 有 逮 辑 ,并 引入 一 定 的 创新 
理念 ,最 后 形成 可 行 性 建议 。 数 据 分 析 人 员 为 了 完成 分 析 任 务 , 获 得 较 好 的 分 析 结果 ,不仅 
要 懂得 行业 知识 ,对 业务 流程 有 一 定 的 了 解 ,还 要 理解 数据 背后 的 隐 含 信息 ,能 够 对 数据 进 
行 合理 的 解读 ,而 且 要 从 变化 的 角度 和 时 间 维 度 对 需求 进行 把 握 , 确 定 用 哪些 数据 来 解决 行 
业 问 题 , 这 是 数据 分 析 的 基础 。 

数据 分 析 的 主要 流程 是 : 明确 分 析 目标 、 数 据 收集 ,数据 预 处 理 、 建 模 分 析 、 结 果 评 估 、 
结论 整理 及 建议 ,通过 对 现状 ,原因 等 分 析 最 终 实 现 预测 分 析 ,确保 数据 分 析 维 度 的 充分 性 
和 结论 的 合理 有 效 性 。 


1.1 业务 理解 


数据 分 析 过 程 中 需要 理解 需求 和 分 析 目 标 , 深 入 理解 与 分 析 目 标 相关 联 的 业务 背景 , 包 
括 行业 知识 、 领 域 知识 及 业务 流程 等 , 若 数据 分 析 人 员 对 业务 背景 不 熟悉 ,其 分 析 方 法 和 过 
程 就 难以 贴 合 实际 需求 。 业 内 专业 人 员 往 往 以 数据 分 析 人 员 分 析 的 结论 为 常识 。 

为 了 从 数据 中 挖掘 出 有 价值 的 结果 ,与 领域 专家 进行 充分 交流 ,要 亲临 一 线 去 了 解 业务 
实际 情况 ,切忌 "数据 空想 ,对 业务 知识 理解 其 逻辑 和 原理 ,不 仅 有 助 于 在 数据 预 处 理 过 程 
中 对 异常 数据 进行 甄别 和 剔除 ,而 且 有 助 于 分 析 过 程 中 数据 探索 和 挖掘 方法 的 选择 ,对 于 结 
果 是 否 符合 预期 ,也 可 直观 得 出 结论 ,否则 容易 出 现 模型 的 准确 率 虽然 很 高 ,经 过 业务 专家 
评价 时 发 现 模型 的 某 一 自 变量 为 目标 变量 的 特征 表现 ,最 终 模 型 毫 无 价值 。 

对 数据 分 析 目 标的 理解 ,包括 定性 分 析 和 定量 分 析 , 前 者 给 出 与 目标 变量 关联 的 自 变量 
列表 或 目标 变量 的 性 质 预测 等 ,后 者 除了 列举 相关 自 变量 ,还 要 对 其 权重 等 进行 定量 分 析 ， 
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在 实际 数据 分 析 过 程 中 ,需要 依据 不 同 的 业务 目标 设计 分 析 方案 。 

在 业务 理解 中 ,要 以 方法 论 的 层面 进行 流程 梳理 ,以 实现 快速 确认 分 析 目 标 相 关联 的 影 
响 因素 ,将 分 析 过 程 以 结构 化 的 方式 展现 ,利于 理 顺 思路 ,而且 不 局 限于 某 一 行业 应 用 ,只 要 
变换 行业 影响 因素 , 即 可 应 用 于 其 他 行业 。 例 如 ,在 企业 经 营 活动 的 分 析 中 ,可 以 应 用 图 1. 1 
所 示 的 分 析 框 架 , 其 中 主要 包括 产业 基础 ,企业 运营 分 析 、 企 业 财 务 分 析 、 竞 争 分 析 、 营 销 分 
析 、 客 户 分 析 , 此 分 析 框 架 基本 涵盖 了 大 部 分 的 企业 经 营 活动 ,具体 分 析 中 可 以 适当 进行 增 
减 和 完善 ,并 且 可 以 按照 不 同 的 行业 进行 细 化 ,形成 行业 分 析 框架 。 
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企业 财务 分 析 


综合 能 力 
图 1.1 企业 经 营 活动 分 析 框 架 


对 业务 理解 的 分 析 框 架 中 ,主要 从 宏观 的 角度 结构 化 、 模 块 化 指导 数据 分 析 , 把 问题 分 
解 成 各 个 相关 联 的 子 模块 ,为 后 续 数 据 分 析 进 行规 划 ,起 到 提纲 大 领 的 作用 。 


1.2 数据 理解 


数据 分 析 从 字面 上 看 是 由 数据 和 分 析 两 部 分 组 成 的 ,其 中 数据 是 基础 和 根本 ,没有 数据 
样本 作为 支撑 ,再 好 的 结论 也 是 无 本 之 木 , 对 现 有 数据 理解 到 位 有 助 于 建立 合理 的 分 析 框 
架 。 分 析 目 标 相关 联 的 自 变量 数据 往往 可 遇 不 可 求 , 多 数 情况 下 ,数据 资料 与 分 析 的 目标 没 
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有 直接 相关 性 ,需要 对 数据 本 身 进行 探索 ,查看 其 数据 特性 或 样本 特征 ,结合 这 些 特征 来 挖 
掘 其 与 分 析 目 标 之 间 的 关系 。 

为 了 提高 数据 分 析 的 准确 性 ,需要 多 维 的 源 数据 ,数据 量 较 大 可 能 会 产生 更 多 的 元 余数 
据 ,处 理 过 程 较 麻烦 ,经 过 预 处 理 和 降 维 后 ,可 以 得 到 更 多 样 的 支持 数据 ,在 初创 型 企业 的 数 
据 量 较 少 的 情况 下 ,可 通过 疏 虫 抓 取 非 结构 化 数据 ,并 转化 为 结构 化 数据 作为 补充 。 

了 解 业务 流程 中 数据 产生 过 程 , 明 确 数据 代表 的 意义 ,并 对 数据 的 结构 和 各 字段 之 间 的 
关系 进行 分 析 , 在 分 析 过 程 中 需要 结合 业务 逻辑 ,对 数据 的 理解 是 整个 数据 分 析 过 程 的 基 
础 ,如 果 这 一 过 程 出 现 问题 ,将 影响 最 终 分 析 结果 的 正确 性 。 

从 历史 的 角度 ,数据 的 产生 过 程 本 身 是 变化 的 ,在 时 间 的 维度 上 ,不 仅 要 关心 数据 是 如 
何 产生 的 及 产生 的 频 度 ,还 要 关心 用 户 的 动作 数据 ,这 些 都 将 产生 趋势 特征 ,在 数据 分 析 过 
程 中 ,需要 关注 业务 变化 导致 的 数据 变化 。 

同时 ,由 于 需求 会 发 生变 化 ,新 的 数据 会 加 入 进来 ,数据 分 析 方案 也 要 具有 一 定 的 扩展 
性 ,以 应 对 企业 发 展 的 变化 和 原始 数据 变化 带 来 的 影响 ,能够 在 设计 模型 后 对 其 进行 修正 和 


1.3 数据 质量 问题 与 预 处 理 


数据 质量 要 求 数据 是 完整 的 和 真实 的 ,并 且 具 有 一 致 性 和 可 靠 性 。 在 数据 分 析 过 程 中 ， 
高 质量 的 数据 更 容易 具有 较 高 的 区 分 度 。 相 反 ,在 数据 分 析 领 域 ,有 一 个 著名 的 “垃圾 进 , 垃 
圾 出 ”结论 ,如 果 数据 具有 较 多 缺失 值 . 异 常 值 和 无 效 记录 ,那么 依 此 数据 建立 的 模型 在 实际 
应 用 中 将 无 法 保证 其 结果 真实 和 有 效 ,数据 预 处 理 占用 整个 数据 挖掘 项 目 60% 的 工作 量 ， 
目标 就 是 保证 输入 模型 的 数据 是 符合 业务 实际 情况 的 ,基于 正确 的 数据 , 才 可 以 谈 模型 的 先 
择 和 应 用 。 

1. 数据 量 较 少 

数据 挖 所 需要 有 一 定 的 数据 量 作为 支撑 , 随 着 数据 量 的 增多 ,其 中 的 规律 越发 明显 ,也 
更 容易 发 现 其 中 分 析 目 标 相关 的 因素 ,特别 是 在 神经 网 络 或 深度 学 习 等 算法 中 ,其 前 提 条 件 
就 要 求 有 大 量 的 训练 数据 ,否则 就 容易 引起 模型 过 拟 合 的 问题 。 

数据 分 析 过 程 中 一 般 要 将 样本 划分 为 训练 集 、 验 证 集 、 测 试 集 , 如 果 数 据 量 较 少 ,可 以 只 
需要 训练 集 和 测试 集 ,其 中 训练 集 的 数据 量 一 般 为 50% 一 80%。 在 某 些 数 据 质量 较 高 .区 
分 度 较 明显 的 业务 场景 中 ,数据 量 可 以 更 少 ,一 般 来 说 ,数据 量 是 自 变量 数量 的 10~20 信 
为 佳 。 

在 数据 的 数量 足够 多 的 情况 下 ,还 要 关注 数据 的 质量 ,如 果 给 定 的 数据 虽然 较 多 ,但 其 
中 样本 的 覆盖 范围 较 少 ,与 分 析 目标 相关 维度 的 数据 数量 才 是 关键 的 ,否则 最 终 分 析 得 到 的 
结论 可 能 会 有 较 大 的 局 限 ,不 能 完全 反映 数据 的 本 质 。 

2. 数据 量 过 多 


数据 集中 数量 过 多 时 ,对 全 部 数据 集 进行 分 析 要 耗费 更 多 的 计算 资源 ,要 求 硬件 配置 较 
高 ,并 且 由 于 数据 中 各 类 数据 的 比例 往往 是 不 平衡 的 ,例如 ,两 家 公司 的 产品 销售 的 开始 时 
间 点 并 不 一 致 ,其 销量 相差 悬殊 ,如果 直接 应 用 到 模型 中 进行 竞争 分 析 , 则 可 能 出 现 较 大 的 
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结果 误差 ,这 种 情况 可 以 应 用 数据 采样 技术 随机 提取 样本 子 集 。 

在 面 对 海量 的 同 质 化 数据 时 ,如 商品 交易 数据 ,可 以 通过 聚集 技术 按照 时 间 、 空 间 等 属 
性 进行 平均 值 等 汇总 ,减少 数据 数量 ,由 于 采用 了 统计 汇总 后 的 数据 ,结果 的 可 视 化 层次 更 
高 ,也 更 加 稳定 ,缺点 是 可 能 存在 细节 丢失 的 情况 。 

另外 一 种 情况 是 在 小 概率 事件 的 处 理 中 需要 关心 数据 集 的 不 平衡 问题 。 例 如 ,在 车 辆 
运行 异常 检测 时 ,车辆 正常 运行 的 时 间 远 超过 出 现 故障 的 时 间 ,所 以 正常 的 数据 量 占 了 绝 大 
多 数 ,异常 数据 量 极 少 ,或 者 是 在 广告 点 击 事件 `. 地 震 检测 \ 入 侵 检 测 .垃圾 邮件 过 滤 等 这 类 
稀有 事件 的 分 析 中 ,要 对 数据 集 应 用 采样 技术 ,或 对 异常 数据 进行 复制 ,提高 其 占 比 。 

3. 维度 灾难 

当 数 据 中 的 自 变量 较 多 时 ,会 出 现 维度 灾难 问题 ,特别 是 在 矩阵 数据 中 ,其 中 元 余 变 量 
占 比 较 高 时 ,可 用 数据 变 成 稀 朴 矩阵 ,在 分 类 算法 处 理 时 就 没 办 法 可 靠 地 进行 类 别 划分 ,在 
聚 类 算法 中 则 容易 使 聚 类 质量 下 降 , 为 了 从 中 获得 稳定 的 分 析 结 果 ,需要 耗费 大 量 的 运算 时 
间 , 分 析 过 程 低 效 ,为 了 应 对 此 问题 ,可 以 采用 线性 代数 的 相关 方法 将 数据 从 高 维 空间 影射 
到 低 维 空间 中 ,其 中 主 成 分 分 析 (PCA) .奇异 值 分 解 (SVD) 等 方法 比较 常用 。 

下 面 通过 对 信用 卡 消费 行为 与 是 否 存在 欺诈 进行 分 析 , 来 展示 PCA 的 主要 用 法 。 信 用 
卡 用 户 消费 统计 记录 如 图 1. 2 所 示 ,其 中 包括 了 卡 类 别 .日 均 消 费 金 额 .日 均 次 数 等 消费 行 
为 统计 后 的 结果 值 ,还 包括 用 户 的 属性 信息 ,如 性 别 、 年 龄 ,职业 等 ,排除 目标 字段 ,共有 
19 个 输入 变量 可 供 选 择 。 
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图 1.2 信用 卡 用 户 消费 统计 记录 


在 SPSS Modeler 中 应 用 主 成 分 分 析 / 因 子 节点 对 数据 进行 降 维 ,选择 日 均 消费 金额 等 
9 个 字段 作为 输入 ,以 70% 训 练 集 、30% 测 试 集 的 比例 进行 分 区 ,选择 “专家 ”模式 ,参数 为 默 
认 值 ,运行 后 的 主要 结果 如 图 1. 3 所 示 。 

在 总 方差 解释 表 中 ,前 4 个 变量 的 初始 特征 值 大 于 1 ,分 别 为 日 均 消 费 金额 .日 均 次 数 、 
单 笔 消费 最 低 . 单 笔 消费 最 高 ,这 4 项 累积 占 全 部 变量 的 84. 507% ,也 符合 主 成 分 的 80% 以 
上 的 标准 ,说 明 这 4 项 作为 输入 变量 比较 合理 。 

降低 维度 的 另 一 种 方法 是 通过 特征 子 集 选 择 的 方式 ,将 那些 不 相关 的 特征 ,如 身份 证 
号 .姓名 等 剔除 ,只 选择 与 目标 变量 紧密 相关 的 特征 。 除 了 剔除 属性 ,还 可 以 使 用 特征 加 权 
技术 ,结合 领域 知识 人 为 赋予 某 些 特征 更 大 的 影响 力 权重 。 

在 深度 学 习 领 域 ,常用 特征 提取 和 特征 创建 的 技术 将 原始 数据 中 的 特征 进行 重 构 , 以 获 
得 模型 需要 的 特征 ,并 且 在 重 构 过 程 中 加 以 格式 转换 和 数据 变换 。 常 用 的 技术 包括 傅 里 叶 
变换 和 小 波 变换 ,前 者 将 时 域 信号 转化 为 频 域 信号 ,后 者 主要 处 理 时 间 序列 等 类 型 。 

4. 数据 不 完整 

除了 数据 量 要 多 ,还 要 求 数据 的 种 类 要 多 。 例 如 ,要 对 企业 产品 的 销售 情况 进行 分 析 或 
预测 ,除了 需要 有 企业 产品 相关 的 市 场 、 销 售 情况 等 信息 外 ,还 需要 有 客户 相关 资料 . 竞 品 的 
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公 因 子 方差 
初始 提取 
日 均 消费 金额 1.000 0.914 
日 均 次 数 1.000 0. 697 


单 笔 消 费 最 低 1. 000 0. 922 
单 笔 消 费 最 高 1.000 0.785 


























年 收入 1.000 0.553 
年 龄 1.000 0.927 
工作 年 限 1.000 0.928 
总 评分 1.000 0.938 
额度 1.000 0.942 
提取 方法 : 主 成 分 分 析 法 。 
总 方差 解释 
成 分 初始 特征 值 提取 载荷 平方 和 
总 计 方差 百分比 /% 累积 /% 总 计 方差 百分比 /% 累积 /% 
1 3.351 37.234 37.234 | 3.351 37. 234 37. 234 
2 1.901 21.123 58.357 | 1.901 21.123 58. 357 
3 1.280 14.217 72.575 | 1.280 14.217 72.575 
4 1.074 11.932 84. 507 | 1.074 11.932 84. 507 
0.783 8.704 93. 211 
6 0. 304 3.379 96. 590 
学 0.145 1.611 98. 201 
8 0.112 1.243 99. 444 
9 0.050 0.556 100. 000 


























提取 方法 : 主 成 分 分 析 法 。 
图 1.3 PCA 主 成 分 分 析 结果 示例 


销售 情况 .市场 数据 \ 财 务 数据 等 ,甚至 要 有 交通 物流 、CPI 等 宏观 数据 支持 ,但 是 现实 情况 
中 ,很 多 数据 缺失 ,要 么 这 些 数 据 并 没有 进行 记录 ,要 么 它们 在 竞争 对 手 的 系统 中 ,无 法 获 
得 ,这 种 情况 将 直接 影响 数据 挖掘 方法 的 选择 ,此 时 可 以 通过 编写 程序 ,来 抓 取 外 部 数据 作 
为 补充 。 

数据 缺失 也 是 数据 不 完整 的 一 种 表现 ,可 能 是 空白 值 或 空 值 ,也 可 能 是 存在 大 量 的 无 效 
值 ,例如 ,所 有 记录 的 某 一 字段 值 均 相 同 , 或 者 某 一 字段 中 超过 一 半 的 记录 为 空 或 无 效 ,在 出 
现 数 据 缺 失 时 ,分 析 人 员 要 查找 缺失 原因 ,是 原 信息 录入 系统 缺陷 ,还 是 人 为 操作 失误 ,或 者 
字段 为 选 填 等 业务 原因 ,并 按照 不 同 的 原因 进行 数据 预 处 理 。 例 如 ,由 于 系统 Bug 导致 的 ， 
则 需要 修复 Bug 并 重新 计算 .如 果 当 前 字段 中 的 数值 是 随时 间 逐 渐 生成 的 , 则 为 业务 原因 ， 
需要 结合 实际 业务 进行 处 理 。 

对 缺失 值 可 以 采用 众 数 、 中 位 数 、 均 值 . 最 近 距 离 等 方法 对 缺失 值 进 行人 为 补充 ,或 者 也 
可 以 通过 回归 或 贝 叶 斯 定理 等 预测 缺失 值 。 为 了 提高 数据 的 纯度 ,也 可 以 删除 含有 缺失 值 
的 记录 ,但 如 果 缺 失 值 的 记录 数 较 多 时 ,删除 操作 可 能 会 丢失 样本 特征 ,此 时 可 以 删除 对 应 
的 字段 ,对 于 缺失 值 超过 30% 的 字段 ,可 不 作为 模型 输入 变量 。 

5. 异常 数据 


在 数据 收集 阶段 由 于 人 为 或 系统 处 理 等 原因 ,会 导致 产生 异 于 常规 的 数据 。 其 中 异常 
数据 分 为 两 类 : 一 类 是 错误 的 数据 ; 另 一 类 为 小 概率 事件 ,或 称 为 稀有 事件 。 在 系统 预 处 
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数据 挖掘 实 


案例 分 析 











理 阶段 要 视 情 况 对 数据 进行 探索 ,并 结合 行业 内 的 业务 知识 对 其 进行 识别 ,一 旦 发 现 错误 数 





据 , 则 将 其 易 


除 或 修正 。 对 于 稀有 事件 ,如 信用 卡 欺诈 行为 ,垃圾 邮件 等 ,这 类 正常 数据 不 但 


不 能 修正 和 删除 ,反而 要 重点 分 析 其 特征 。 
通过 查看 散 点 图 或 箱 图 的 方式 查看 离 群 点 信息 ,如 图 1. 4 所 示 , 可 以 看 到 方 框 中 的 年 收 


入 达到 21 亿 


元 ,已 经 超过 绝 大 多 数 人 的 收入 范围 , 极 有 可 能 为 异常 数据 。 还 可 基于 距离 或 





统计 模型 等 进行 检测 ,如 应 用 线性 回归 、 主 成 分 分 析 等 方式 来 区 分 异常 数据 , 除 此 之 外 ,还 可 
应 用 深度 学 习 ( 如 RNN 方法 ) 来 检测 。 

















年 收入 /元 





2.5E9%|------: i----------------------}----------- 年 收入 
| ! 1 | |@25E° 
EX : 加 | 全 159 
1 1 1 
1 1 1 | @1.5E9 
2.0E%------ [Be] ~- 1----------- + @ 10E9 
| 上 1 | @ 5.0E8 
! ! 1 ! | 。0.0E0 
1.5E9|------ i 站 人 上 
1 
1 1 | | 
1 1 1 1 
1 1 1 1 
1 1 1 1 
10E9|------] = + 
| . ! ! 1 
1 1 1 1 
1 1 1 1 
1 1 1 1 
5.0E8[------ HE 和 +----------- + 
ie 1 1 1 
! | 
. LU 
0.0E0|----- Pp 











年 苓 岁 
图 1.4 通过 散 点 图 查看 离 群 点 
当 异 常数 据 并 非 在 离 群 点 时 ,没有 显著 异常 ,可 能 是 由 于 人 为 输入 错误 或 系统 误差 导致 


数值 是 不 正确 的 ,但 是 由 于 其 与 真实 值 之 间 区 分 较 少 ,所 以 较 难 发 现 这 类 噪声 


数据 。 可 以 通过 抽样 的 方式 进行 人 工 检测 ,或 者 对 比 不 同 数据 源 系统 中 的 数据 ,进行 一 致 性 


检测 。 


6. 重复 数据 


在 数据 分 析 中 如 果 出 现 较 多 的 重复 数据 .将 对 模型 的 结果 产生 误差 ,在 数据 处 理 过 程 中 
可 以 使 用 SQL 或 Excel 中 的 去 重复 方法 将 重复 数据 滤 除 。 有 时 候 在 记录 中 所 有 字段 都 是 


非 重复 数据 ， 





但 选择 其 中 部 分 字段 时 则 容易 产生 重复 样本 , 即 样本 子 集中 含有 重复 数据 , 特 





别 是 手动 选取 某 几 个 字段 作为 模型 输入 时 ,容易 忽略 这 一 细 


Cn EE 
节 , 所 以 ,在 将 其 应 用 到 模型 之 前 ,需要 进行 过 滤 ,将 重复 数据 
滤 除 。 在 SPSS 中 可 以 使 用 "区 分 ?节点 ,对 选择 的 自 变量 进 用 于 分 组 的 关键 字 字段 (K): 


行 去 重 。 利 月 
在 模式 中 
将 滤 除 ,用 于 











日“ 区 分 ”节点 去 重复 如 图 1. 5 所 示 。 
bh 选 择 “ 每 组 仅 包括 首 个 记录 ”, 其 他 重复 的 记录 
分 组 的 字段 即 为 流向 下 一 节点 的 变量 ,只 有 日 均 





纱 单 笔 消费 最 低 
履 单 笔 消费 最 高 


消费 金额 等 4 个 字段 中 的 值 均 为 重复 时 , 才 会 被 滤 除 。 图 1.5 利用 * 区 分 ”节点 去 重复 


第 1 章 数据 分 析 过 程 的 主要 问题 





7. 数据 不 一 致 

随 着 数据 源 的 增多 ,不 同 数据 源 中 不 同 结构 类 型 的 数据 可 能 会 产生 冲突 ,导致 数据 不 一 
致 或 相互 矛盾 ,也 可 能 是 由 于 名 称 或 标识 不 同 导致 的 ,例如 ,中 文 和 英文 表示 同一 对 象 , 或 由 
于 变量 的 统计 口径 不 同 导致 。 在 数据 处 理 中 需要 对 其 进行 筛选 ,结合 实际 业务 选择 正确 的 
数据 ,例如 ,对 不 同 数据 源 的 数据 进行 优先 级 标记 ,出 现 不 一 致 的 情况 时 优先 使 用 某 一 数据 
源 的 样本 。 

数据 不 一 致 的 另 一 个 表现 是 记录 中 某 些 字 段 不 符合 规范 ,使 其 与 数据 逻辑 之 间 存 在 不 
一 致 ,可 以 按照 数据 使 用 规范 建立 合法 性 检测 的 规则 ,以 此 对 数据 进行 验证 。 

对 数据 进行 评估 ,主要 是 对 数据 的 准确 性 、 完 整 性 ,一 致 性 等 维度 找 出 样本 存在 的 问题 ， 
应 用 SPSS 中 的 数据 审核 节点 ,可 以 查看 相关 异常 情况 。 图 1. 6 是 数据 审核 节点 的 审核 结 
果 。 从 图 1. 6 可 以 看 到 各 自 变 量 的 类 型 及 数据 分 布 情况 ,以 及 极 值 . 平 均值 .标准 差 、 偏 度 、 
类 别 数 ( 非 连 续 型 变量 ) 有 效 的 记录 数 。 其 中 , 偏 度 用 于 对 分 布 的 不 对 称 性 进行 度量 。 在 变 
量 中 ,数据 呈正 态 分 布 时 是 对 称 的 ,所 以 其 偏 度 值 为 0。 具 有 显著 正 偏 度 值 的 分 布 有 很 长 的 
右 尾 。 负 偏 度 的 分 布 有 很 长 的 左 尾 。 当 偏 度 值 超过 标准 差 的 2 倍 时 , 则 认为 此 变量 不 具有 
对 称 性 。 





字段 。 | 样本 图 形 / 
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图 1.6 数据 审核 节点 的 审核 结果 


在 “质量 ”选项 卡 中 查看 数据 质量 ,如 图 1.7 所 示 , 可 以 看 到 字段 的 完整 性 和 完整 记录 比 
例 ,以 及 空 值 ,字符 型 空 值 \ 空 白 \ 空 白 值 离 群 值 , 极 值 的 数量 等 。 

由 于 数据 审核 节点 为 输出 节点 ,无 法 直接 进行 输出 ,但 在 SPSS Modeler 中 可 以 将 数据 
审核 节点 生成 数据 准备 节点 向 后 传递 ,并 设计 数据 验证 规则 .基准 和 偏 度 值 等 指标 ,其 将 对 
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画 亲 天 轩 


完整 字段 (29: |100% 完整 记录 (%9: |100% 





字段 测量 ， 离 群 值 ， 极 值 “操作 缺失 播 补 “方法 完成 百分比 有 效 记录 ， 空 值 。 字符 型 空 值 。 空白 ”空白 值 
仿 年 龄 少 连 续 。 166 0 无 从 不 国定 100 10000 0 0 0 0 
办 性别 昌 标记 -| 从 不 固 100 10000 0 0 0 0 
辐 婚 姻 哆 名 义 = 天 从 不 100 10000 0 0 0 0 
四 教育 程度 喝 名 义 王国 从 不 100 10000 0 0 0 0 
图 职业 而 名 义 十 - 从 不 100 10000 0 0 0 0 
四 户籍 蝎 名 义 二 = 从 不 100 10000 0 0 0 0 
国 居住 类 型 。 锡 名 义 一 二 从 不 100 10000 0 0 0 0 
大 | 车 辆 情 最 标记 | SE 从 不 100 10000 0 0 0 0 
网 保险 缴纳 龟 标记 = 二 = 从 不 100 10000 0 0 0 0 
名 工作 年 依 连 续 ， 173 0 无 从 不 100 10000 0 0 0 0 
今年 收入 人 少 连续 0 18 无 从 不 100 10000 0 0 0 0 
向 信贷 情况 喝 名 义 一 - 从 不 100 10000 0 0 0 0 
国信 用 等 级 网 名 义 十 - 从 不 100 10000 0 0 0 0 
网 是 否 申 请 成 功 网 名义 从 不 100 10000 0 0 0 0 








图 1.7 数据 审核 节点 中 数据 质量 结果 


异常 数据 进行 标记 ,使 得 向 后 传递 的 数据 保持 较 高 的 质量 。 

多 重 共 线性 是 指 多 个 自 变量 之 间 存在 线性 相关 , 当 出 现 共 线 性 问题 时 ,模型 的 参数 会 变 
得 不 稳定 ,其 预测 结果 的 准确 性 大 打折 扣 。 多 重 共 线 性 的 检测 分 为 视觉 观察 和 定量 分 析 两 
种 方式 ,前 者 可 使 用 交叉 散 点 图 来 透视 N 维 样本 数据 可 能 存在 的 问题 ,后 者 可 使 用 回归 分 
析 的 方法 对 共 线 性 进行 诊断 。 

输入 变量 为 年 龄 .工作 年 限 、 年 收入 ,为 了 方便 查看 各 维 之 间 的 关系 ,在 SPSS 中 使 用 图 
形 板 工 具 , 选 择 散 点 图 和 矩阵 (SPLOM) 作 为 可 视 化 类 型 ,运行 之 后 可 以 直观 看 到 工作 年 限 与 
年 龄 呈现 线性 相关 性 ,如 图 1. 8 所 示 。 














年 龄 工作 年 限 年 收入 

o 年 
龄 

. 0 
工 
2 | 作 
年 
限 

. 四 
收 
入 





工作 年 限 年 收入 
图 1.8 散 点 图 矩阵 透视 数据 
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通过 可 视 化 的 方式 查找 变量 之 间 的 共 线 性 问题 ,只 是 初步 的 诊断 ,为 了 量化 分 析 各 变量 
之 间 是 否 存 在 较 强 的 共 线 性 问题 ,现在 使 用 线性 回归 分 析 来 检验 ,在 回归 分 析 的 属性 中 以 年 
收入 为 目标 变量 ,以 年 龄 .工作 年 限 为 输入 ,启用 专家 模式 ,并 在 输出 中 选中 “ 共 线 性 诊断 " 复 
选 框 ,如 图 1.9 所 示 。 





名 使 用 预定 义 角色 (D) 模式 : 日 简单 加 专家 

@ 使 用 定制 字段 分 配 (C) 缺失 值 转 “ 和 线性 回归 ; 高 级 输出 选项 
iD; 别人 

输入 WD: | 少年 内 Ss) 





四 部 分 相关 和 偏 相关 性 四 残 差 
图 共 线性 诊断 加 Durbin-Watson 
















加 使 用 权重 字段 | 
图 1.9 回归 分 析 检 测 共 线 性 问题 
运行 回归 分 析 之 后 ,在 模型 结果 的 “高 级 "选项 卡 中 查看 共 线 性 诊断 结果 ,如 图 1. 10 所 


示 , 查 看 其 条 件 指标 发 现 第 3 维 变量 的 条 件 指标 达到 13. 489( 二 10) 了 ,说 明年 龄 与 工作 年 
限 确实 存在 线性 相关 。 








共 线 性 诊断 





模型 ” 维 | 特征 值 条 件 指标 





(常量 ) 年 龄 ”| 工作 年 限 
1 1 2.752 1.000 0.01 0.00 0.01 

2 0.232 3. 441 0.08 0.00 0.30 

3 0.015 13. 489 0.91 1.00 0.68 


图 1.10 回归 分 析 诊 断 结果 
在 输入 变量 较 多 的 情况 下 (本 例 中 只 有 2 个 变量 ) ,发 现 共 线性 变量 后 ,将 其 剔除 之 后 重 


新 运行 回归 分 析 检 验 是 否 存在 共 线 性 问题 ,如 果 仍 然 存 在 , 则 继续 排除 字段 ,直到 共 线 性 问 
题 不 再 出 现 。 





























1.4 数据 分 析 常 见 陷阱 


由 于 业务 复杂 度 ,数据 多 样 ,数据 分 析 人 员 考 虑 不 周 等 原因 ,在 数据 分 析 过 程 中 会 有 很 
多 陷阱 ,为 了 在 应 用 中 进行 规避 ,这 里 列举 几 个 常见 的 问题 。 

1. 错误 理解 相关 关系 

很 多 事物 之 间 都 存在 相关 性 ,但 并 不 意味 着 其 存在 因果 关系 ,或 者 有 可 能 二 者 的 因果 关 
系 颠 倒 了 ,要 避免 此 类 问题 ,一 方面 需要 深入 理解 业务 ,规避 大 部 分 错误 ; 另 一 方面 要 分 析 
是 否 由 第 三 方 变量 同时 引起 两 种 变量 的 变化 , 找 出 其 变化 原因 。 


2. 错误 的 比较 对 象 
数据 分 析 中 的 结果 或 效果 比较 时 ,容易 将 不 同样 本 集 进 行 结果 比较 ,比较 对 象 不 合理 ， 
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其 结果 自然 无 效 ,结论 便 不 能 成 立 ,这 类 问题 很 常见 。 例 如 ,调查 发 现 部 队 军人 的 死亡 率 要 
低 于 城市 居民 ,但 是 分 析 人 员 没 有 对 城市 居民 中 的 年 龄 等 条 件 进行 限制 ,二 者 并 不 具有 同样 
的 比较 基础 ,所 以 其 结论 “参军 很 安全 ”自然 也 无 法 成 立 。 

3. 数据 抽样 

在 数据 抽样 时 如 果 出 现 偏差 ,可 能 会 影响 分 析 结 果 , 所 以 采样 时 ,需要 考虑 什么 时 候 进 
行 采样 ,如 何 随 机 进行 等 , 即 按照 什么 标准 来 保证 其 子 集 能 够 代表 全 部 样本 ,特别 在 分 类 问 
题 中 ,目标 类 别 的 比例 如 果 在 采样 时 失去 平衡 ,将 直接 影响 分 类 结果 。 

4. 忽略 或 关注 极 值 

有 些 时 候 , 极 值 点 或 异常 点 是 需要 关注 的 ,如 果 忽视 它们 ,将 可 能 失去 某 类 样本 或 丢 
失 某 项 重要 特征 ,而 如 果 在 某 些 时 候 过 于 关注 极 值 点 , 则 可 能 会 对 结果 造成 偏差 ,影响 结 
论 。 如 何 处 理 需 要 结合 实际 应 用 进行 判断 ,要 分 析 这 些 极 值 点 出 现 的 原因 ,从 而 决定 其 
去 留 。 

5. 相信 巧合 数据 

有 些 数 据 分 析 结 果 会 使 人 感到 有 一 种 假象 , 即 结果 恰好 印证 了 之 前 的 某 个 判断 或 猜想 ， 
实际 上 ,如 果 重 新 进行 多 次 实验 ,就 会 发 现 这 不 过 是 某 种 巧合 而 已 。 这 类 问题 一 般 容易 出 现 
在 医疗 或 生物 学 科 领 域 中 ,或 者 是 在 回归 分 析 中 两 个 变量 之 间 具 有 某 种 关联 ,可 能 是 巧合 。 

6. 数据 未 作 归 一 化 

两 个 数据 指标 进行 比较 时 ,容易 进行 总 数 比较 ,而 忽视 比例 的 比较 。 例 如 ,对 比 两 个 地 
区 房价 的 增长 情况 ,房屋 单价 同样 涨 1000 元 ,上 海 可 能 涨幅 只 有 2% ,而 对 于 太原 ,可 能 达 
到 15%。 忽 视 了 总 量 对 于 指标 的 影响 ,必然 影响 结果 的 准确 性 。 

7. 忽视 第 三 方 数据 

我 们 在 分 析 的 时 候 往往 只 盯 着 手 上 的 数据 ,由 于 维度 有 限 ,很 多 结论 或 观点 是 无 法 进行 
验证 的 ,为 了 进一步 深入 分 析 , 有 必要 搜集 或 使 用 怜 虫 获取 更 多 种 数据 ,使 数据 源 更 加 丰富 ， 
这 样 也 有 利于 比较 分 析 ,论证 更 加 充分 。 

8. 过 度 关 心 统计 指标 

过 于 相信 数据 分 析 方 法 中 的 各 项 指标 ,就 会 忽视 某 些 方法 或 结论 成 立 的 前 提 条 件 。 例 
如 ,处 理 分 类 问题 时 ,如 果 类 别 比 例 非常 不 平衡 ,99% 为 负 例 ,只 有 1% 的 正 例 ,这 种 情况 下 ， 
分 类 器 一 般 不 作 分 析 , 直 接 返 回 负 例 结果 ,准确 率 可 以 达到 99% ,但 是 实际 并 没有 意义 ,如 
果 不 加 注意 ,可 能 会 被 指标 欺骗 。 


1.5 数据 分 析 方法 的 选择 


数据 分 析 方 法 要 从 业务 的 角度 分 析 其 目标 ,并 对 现 有 的 数据 进行 探查 ,发 现 其 中 的 规 
律 , 大 胆 假设 并 进行 验证 ,依据 各 模型 算法 的 特点 选择 合适 的 模型 进行 测试 验证 ,分 析 并 对 
比 各 模型 的 结果 ,最 终 选择 合适 的 模型 进行 应 用 。 

理解 目标 要 求 是 分 析 方 法 选择 的 关键 ,首先 对 要 解决 的 问题 进行 分 类 ,如 果 数 据 集中 有 
标签 , 则 可 进行 监督 式 学 习 , 反 之 可 应 用 无 监督 学 习 方 法 。 在 监督 式 学 习 中 对 定性 问题 可 用 


第 1 章 数据 分 析 过 程 的 主要 问题 








分 类 算法 ,对 定量 分 析 可 用 回归 方法 ,如 逻辑 回归 或 回归 树 等 ; 在 无 监督 式 学 习 中 ,如 果 有 
样本 细 分 , 则 可 应 用 聚 类 算法 ,如 需 找 出 各 数据 项 之 间 的 内 在 联系 ,可 应 用 关联 分 析 。 

熟悉 各 类 分 析 方 法 的 特性 是 分 析 方 法 选择 的 基础 ,不 仅 需要 了 解 如 何 使 用 各 类 分 析 
算法 ,还 要 了 解 其 实现 的 原理 ,这 样 , 在 参数 优化 和 模型 改进 时 可 减少 无 效 的 调整 。 在 分 
析 方 法 的 选择 过 程 中 ,由 于 分 析 目 标的 业务 要 求 及 数据 支持 程度 差别 较 大 ,很 难 一 开始 
就 确认 哪 种 分 析 方 法 效果 最 佳 ,需要 对 多 种 算法 进行 尝试 和 调 优 , 尽 可 能 提高 准确 性 和 
区 分 度 。 

在 选择 模型 之 前 ,要 对 数据 进行 探索 性 分 析 , 了 解数 据 类 型 和 数据 特点 ,发 现 各 自 变量 
之 间 的 关系 ,以 及 自 变量 与 因 变 量 的 关系 ,特别 注意 在 维度 较 多 时 容易 出 现 变量 的 多 重 共 现 
性 问题 ,可 应 用 箱 图 ,直方 图 、 散 点 图 查找 其 中 的 规律 性 信息 。 

模型 选择 过 程 中 先 提出 多 个 可 能 的 模型 ,然后 对 其 进行 详细 分 析 , 并 选择 可 用 于 分 析 的 
模型 ,在 自 变量 选择 时 ,大 多 数 情况 下 需要 结合 业务 手动 选择 自 变量 。 选 择 模型 后 , 比较 不 
同 模 型 的 拟 合 程度 ,可 统计 显著 性 参数 、R 方 .调整 R 方 、 最 小 信息 标准 、BIC 和 误差 准则 、 
Mallow”s Cp 准则 等 。 在 单个 模型 中 可 将 数据 分 为 训练 集 和 测试 集 , 用 来 做 交叉 验证 和 分 
析 结 果 的 稳定 性 。 反 复 调 整 参数 ,使 模型 结果 趋 于 稳定 。 


1.5.1 分 类 算法 


分 类 算法 是 应 用 规则 对 记录 进行 目标 映射 ,将 其 划分 到 不 同 的 分 类 中 ,构建 具有 泛 化 能 
力 的 算法 模型 , 即 构 建 映射 规则 来 预测 未 知 样本 的 类 别 。 一 般 情况 下 ,由 于 映射 规则 是 基于 
经 验 的 ,所 以 其 准确 率 一 般 不 会 达到 100%, 只 能 获得 一 定 概率 的 准确 率 , 准 确 率 与 其 结构 、 
数据 特征 、 样 本 的 数量 相关 。 

分 类 模型 包括 预测 和 描述 两 种 。 经 过 训练 集 学 习 的 预测 模型 在 遇 到 未 知 记录 时 ,应 用 
规则 对 其 进行 类 别 划分 ,而 描述 型 的 分 类 主要 是 对 现 有 数据 集中 的 特征 进行 解释 并 区 分 ,其 
应 用 场景 如 对 动 植物 的 各 项 特征 进行 描述 ,并 进行 标记 分 类 ,由 这 些 特征 来 决定 其 属于 哪 一 
类 目 。 

主要 的 分 类 算法 包括 决策 树 、 支 持 向 量 机 (Support Vector Machine, SVM)、 最 近邻 
(K-Nearest Neighbors,KNN), 贝 叶 斯 网 络 (Bayes Network) ,神经 网 络 等 。 

1. 决策 树 

正如 其 名 ,决策 树 是 一 种 用 于 决策 的 树 ,目标 类 别 作为 叶子 节点 ,特征 属性 的 验证 作为 
非 叶子 节点 ,而 每 个 分 支 是 特征 属性 的 输出 结果 。 决 策 过 程 是 从 根 节点 出 发 ,测试 不 同 的 特 
征 属性 ,按照 结果 的 不 同 选 择 分 支 ,最 终 转 到 某 一 叶子 节点 ,获得 分 类 结果 。 主 要 的 决策 树 
算法 有 ID3、C4. 5、C5.0、CART( 可 简写 为 CART)、CHAID、SLIQ、SPRINT。 图 1.11 是 
C5.0 决策 树 算法 应 用 实例 ,分 析 目 标 是 信用 卡 申 请 是 否 成 功 的 主要 影响 因素 。 

决策 树 的 构建 过 程 不 需要 业务 领域 的 知识 支撑 ,其 构建 过 程 是 按照 属性 特征 的 优先 级 
或 重要 性 来 逐渐 确定 树 的 层次 结构 ,分支 分 裂 的 关键 是 要 使 其 叶子 节点 尽 可 能 “纯净 ”, 尽 可 
能 属于 同一 类 别 ,一 般 采 用 局 部 最 优 的 贪心 策略 来 构建 决策 树 , 即 Hunt 算法 。 决 策 树 算法 
特点 比较 见 表 1. 1。 
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是 否 申请 成 功 
r----1 [ Node0 
1 号 功 | 
! 国 失败 ! = 
Ws 
年 收入 
80 000.000 >80 000.000| 
Node 1 Node 50 
| 蝇 正在 偿还 ; 正常 还 三 
保险 缴纳 款 ; 没有 贷款 记录 ; 信贷 情况 
- - 现在 没有 贷款 还 在 皂 多 | 
有 作 期 还 款 
Node 7 Node 34 Node 51 
天 | 
年 收入 车 辆 情况 
30 000.000 >30 000.000 有 无 
Node 3 Node i Node 35 Node 45 
已 已 
车 辆 情况 车 辆 情况 年 龄 年 龄 
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表 1.1 决策 树 算法 特点 比较 






























































决策 树 算法 特点 输出 变量 
1D。 ”|_ 优 训 | 采用 信息 增 闪 作为 过 到 标 流 ; 问 丰 决策 笠 的 全 从 最 丰 A 
缺点 | 只 能 处 理 离散 变量 倾向 于 选择 取 值 较 多 的 局 性， 算法 效率 低 
局 | 优点 | 采用 信息 增益 率 作 标 准 ， 可 处 理 不 完整 数据 ; 规则 易 理 入 有 
缺点 | 数据 集 超过 内 存 大 小 无 法 计算 ; 多 次 扫描 和 排序 ,算法 低 效 
局 。 | 优点 | 基于 C4.5 改进 ,更 加 稳健 和 准确 ,内 存 占用 少 ; 规则 易于 理解 有 
缺点 | 输出 变量 必须 为 分 类 型 
全 上 生 | 自 动 忽 咯 天 贡献 变量 ， 计 练 时 间 短 ,再 顷 果 稳健 ， 可 以 处 更 商 禾 
CART 点 | 和 连续 属性 连续 /分 类 
页 点 | 对 数值 型 输 出 变量 的 准确 性 低 
优点 | 多 分 支 树 合并 ; 按 统 计 显著 性 确定 分 支 变量 和 分 制 值 
CHAD | 缺点 | 无 法 处 理 大 规模 数据 和 
SOQ | 优点 | 采用 广度 优先 构建 村 效率 高 , 处 再 数据 集 较 G4.5 更 大 a 
缺点 | 数据 集 需 常 驻 内 存 ; 算法 复杂 度 与 数据 量 时 非 线性 关系 
优点 | 减少 常 驻 内 存 数据 量 ; 扫描 效率 高 
SPRINT 人 忽 点 | 难以 对 非 分 裂 属性 进行 分 裂 ; 大 数据 集 时 需 分 批 执行 ,效率 低 分 二 
QUEST 优点 | 采用 二 元 分 类 法 , 比 CART 更 加 简单 ,高效 分 类 
缺点 | 目标 字段 须 为 分 类 ; 不 能 使 用 加 权 变量 : 有 序 字 段 须 为 数字 型 
优点 | 克服 了 过 拟 合 ; 更 加 稳健 ; 并 行 处 再 高 维 数据 
随机 森林 | 缺点 | 在 某 些 噪声 较 大 的 分 类 或 回归 问题 上 会 过 拟 合 人 
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2. 支持 向 量 机 

支持 向 量 机 是 由 Vapnik 等 人 设计 的 一 种 线性 分 类 器 准则 ,其 主要 思想 是 将 低 维特 征 
空间 中 的 线性 不 可 分 进行 非 线性 映射 转化 为 高 维 空间 ,使 其 线性 可 分 。 另 外 ,应 用 结构 风险 
最 小 理论 在 特征 空间 最 优 分 割 超 平面 ,可 以 找到 尽 可 能 宽 的 分 类 边界 ,特别 适合 两 个 分 类 不 
容易 分 开 的 情况 。 例 如 ,在 二 维 平面 图 中 某 些 点 是 杂乱 排列 的 ,无 法 用 一 条 直线 分 为 两 类 ， 
但 是 在 三 维 空间 中 ,通过 一 个 平面 可 以 将 其 完美 划分 。 

为 了 避免 在 低 维 空间 向 高 维 空间 转化 过 程 中 增加 计算 复杂 性 和 "“ 维 数 灾难 ”,SVM 通过 
应 用 核 函 数 的 展开 原理 ,不 需要 关心 非 线性 映射 的 显 式 表达 式 ,直接 在 高 维 空间 建立 线性 分 
类 器 , 极 大 优化 了 计算 复杂 度 。SVM 常见 的 核心 函数 有 4 种 ,分 别 是 线性 核 函数 ,多项式 核 
函数 、 径 向 基 函 数 、 二 层 神经 网 络 核 函 数 。 

SVM 的 目标 变量 以 二 分 类 最 佳 ,虽然 可 以 用 于 多 分 类 ,但 效果 不 好 。 相 较 于 其 他 分 类 
算法 ,在 小 样本 数据 集中 其 效果 更 好 。 由 其 原理 可 知 .SVM 擅长 处 理 线 性 不 可 分 的 数据 ,并 
且 在 处 理 高 维 数据 集 时 具有 优势 。 

3. 最 近邻 

通过 在 样本 实例 之 间 应 用 向 量 空 间 模型 ,将 相似 度 高 的 样本 分 为 一 类 ,应 用 训练 得 到 的 
模型 对 新 样本 计算 与 之 距离 最 近 ( 最 相似 ) 的 & 个 样本 的 类 别 , 那 么 新 样本 就 属于 上 个 样本 
中 的 类 别 最 多 的 那 一 类 。 可 以 看 出 ,影响 分 类 结果 的 3 个 因素 分 别 为 距离 计算 方法 、 最 近 的 
样本 数量 & 值 .距离 范围 。 

KNN 支持 多 种 相似 度 距离 计算 方法 : 欧式 距离 (Euclidean Distance)、 曼 喻 顿 距 离 
(Manhattan Distance) 、 切 比 雪夫 距离 闵可夫 斯 基 距 离 (Minkowski Distance) ,标准 化 欧 氏 
距离 (Standardized Euclidean Distance)、 马 氏 距 离 (Mahalanobis Distance)、 巴 氏 距 离 
(Bhattacharyya Distance) , 汉 明 距离 (Hamming Distance) 、 夹 角 余 弦 (Cosine) 、 杰 卡 德 相似 
系数 (Jaccard Similarity Coefficient) 、 皮 尔 逊 相关 系数 (Pearson Correlation Coefficient) 。 

在 k 值 选择 中 ,如 果 设置 较 小 的 & 值 ,说 明 在 较 小 的 范围 中 进行 训练 和 统计 ,误差 较 大 
且 容 易 产 生 过 拟 合 的 情况 ;& 值 较 大 时 意味 着 在 较 大 的 范围 中 学 习 , 可 以 减少 学 习 的 误差 ， 
但 是 在 其 统计 范围 变 大 了 ,说 明 模型 变 得 简单 了 ,容易 在 预测 的 时 候 发 生 分 类 错误 。 

KNN 算法 的 主要 缺点 是 : 在 各 分 类 样本 数量 不 平衡 时 误差 较 大 ; 由 于 其 每 次 比较 要 
遍历 整个 训练 样本 集 来 计算 相似 度 ,所 以 分 类 的 效率 较 低 , 时 间 和 空间 复杂 度 较 高 ; 值 的 
选择 不 合理 ,可 能 会 导致 结果 的 误差 较 大 ; 在 原始 KNN 模型 中 没有 权重 的 概念 ,所 有 特征 
采用 相同 的 权重 参数 ,这 样 计算 出 来 的 相似 度 易 产生 误差 。 

4. 贝 叶 斯 网 络 

贝 叶 斯 (Bayesian) 网 络 又 称 为 置信 和 网络 (Belief Network), 是 基于 贝 叶 斯 方法 绘制 的 、 
具有 概率 分 布 的 有 向 弧 段 图 形 化 网 络 ,其 理论 基础 是 贝 叶 斯 公式 ,网 络 中 的 每 个 点 表示 变 
量 , 有 向 弧 段 表示 两 者 间 的 概率 关系 。 

相 较 于 神经 网 络 , 网 络 中 的 节点 都 具有 实际 的 含义 ,节点 之 间 的 关系 比较 明确 ,可 以 从 
贝 叶 斯 网 络 中 直观 看 到 各 变量 之 间 的 条 件 独立 和 依赖 关系 ,可 以 进行 结果 和 原因 的 双向 推 
理 。 图 1. 12 是 贝 叶 斯 网 络 的 一 个 示例 网 络 结构 ,分 析 信 用 卡 成 功 申 请 的 影响 因素 。 其 中 ， 
“是 否 申请 成 功 一 年 收入 ?表示 : P( 年 收入 | 是 否 申请 成 功 二 Yes), 即 在 申请 成 功 的 情况 下 ， 
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图 1.12 贝 叶 斯 网 络 分 析 成 功 申 请 信用 卡 的 影响 因素 


客户 年 收入 的 概率 。 

贝 叶 斯 网 络 分 类 算法 分 为 简单 (朴素 ) 贝 叶 斯 算法 和 精确 贝 叶 斯 算法 。 在 节点 数 较 少 的 
网 络 结构 中 ,可 选 精确 贝 叶 斯 算法 ,以 提高 精确 概率 。 在 节点 数 较 多 的 网 络 结构 中 ,为 减少 
推理 过 程 和 降低 复杂 性 ,一 般 选 择 简单 贝 叶 斯 算法 。 

5. 神经 网 络 

传统 的 神经 网 络 为 BP(Back Propagation) 神 经 网 络 ,目前 的 递归 神经 网 络 (RNN) 、 卷 
积 神经 网 络 (CNN) 等 均 为 神经 网 络 在 深度 学 习 方 面 的 变种 ,其 基础 还 是 由 多 层 感知 器 
(MLP) 的 神经 元 构成 ,这 里 仅 介绍 BP 神经 网 络 的 特点 ,基本 的 网 络 中 包括 输入 层 、 隐 藏 层 、 
输出 层 ,每 一 个 节点 代表 一 个 神经 元 ,节点 之 间 的 连 线 代表 了 权重 值 , 输 入 变量 经 过 神经 元 
对 会 运行 激活 函数 ,对 输入 值 按照 权重 和 偏 置 进行 计算 ,将 输出 结果 传递 到 下 一 层 中 的 神经 
元 ,而 权重 值 和 偏 置 是 在 神经 网 络 训 练 过 程 中 不 断 修 正 得 到 的 。 

神经 网 络 的 训练 过 程 主 要 包括 前 向 传输 和 逆向 反馈 ,前 者 是 将 输入 变量 逐 层 向 下 传递 ， 
最 后 得 到 一 个 输出 结果 ,并 对 比 实际 的 结果 ,如果 发 现 预测 结果 与 实际 结果 不 符 , 则 逐 层 逆 
向 反馈 ,对 神经 元 中 的 权重 值 和 偏 置 进行 修正 ,然后 重新 进行 前 向 传递 结果 ,以 此 反复 和 迭代， 
直到 最 终 预 测 结果 与 实际 结果 一 致 。 

BP 神经 网 络 的 结果 准确 性 与 训练 集 的 样本 数量 和 分 类 质量 有 关 , 如果 样本 数量 过 少 ， 
可 能 会 出 现 过 拟 合 的 问题 .无 法 泛 化 新 样本 ; 对 训练 集中 的 异常 点 比较 敏感 ,需要 分 析 人 员 
对 数据 做 好 预 处 理 , 如 数据 标准 化 、 去 除 重复 数据 , 移 除 异常 数据 ,从 而 提高 BP 神经 网 络 的 
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性 能 。 

由 于 模型 结果 神经 网 络 是 基于 历史 的 数据 构建 的 分 析 模 型 ,如 果 是 新 数据 产生 的 新 规 
则 , 则 可 能 出 现 不 稳定 的 情况 ,需要 进行 动态 优化 。 例 如 , 随 着 时 间 变化 ,应 用 新 的 数据 对 模 
型 进行 重新 训练 ,来 调整 网 络 的 结构 和 参数 值 。 


1.5.2 率 类 算法 


聚 类 是 基于 无 监督 学 习 的 分 析 模 型 ,不 需要 对 原始 数据 进行 标记 ,按照 数据 的 内 在 结构 
特征 进行 聚集 形成 簇 群 ,从 而 实现 数据 的 分 离 ,其 中 聚集 的 方法 就 是 记录 之 间 的 区 分 规则 。 
聚 类 与 分 类 的 主要 区 别 是 其 并 不 关心 数据 是 什么 类 别 , 而 是 把 相似 结构 的 数据 聚集 起 来 形 
成 某 一 类 簇 。 

在 聚 类 的 过 程 中 ,首先 选择 有 效 特征 存 于 向 量 中 ,必要 时 将 特征 进行 提取 和 转换 ,获得 
更 加 突出 的 特征 ,然后 按照 欧式 距离 或 其 他 距离 函数 进行 相似 度 计算 ,并 划分 聚 类 ,通过 对 
聚 类 结果 进行 评估 ,逐渐 迭代 生成 新 的 聚 类 。 

聚 类 应 用 领域 广泛 ,可 用 于 企业 发 现 不 同 的 客户 群体 特征 、 消 费 者 行为 分 析 ,市 场 细 分 、 
交易 数据 分 析 等 ,也 可 用 于 生物 学 的 动 植物 种 群 分 类 、 医 疗 领域 的 疾病 诊断 、 环 境 质量 检测 
等 ,还 可 用 于 互联 网 和 电 商 领域 的 客户 分 析 、 行 为 特征 分 类 等 。 在 数据 分 析 过 程 中 可 以 先 用 
聚 类 对 数据 进行 探索 ,发 现 其 中 蕴含 的 类 别 特征 ,然后 再 用 其 他 方法 对 样本 进一步 分 析 。 

按照 聚 类 方法 分 类 ,可 分 为 基于 层次 的 聚 类 (Hierarchical Method) .基于 划分 的 聚 类 
(PArtitioning Method,PAM) 基于 密度 的 聚 类 基于 机 器 学 习 的 聚 类 、 基 于 约束 的 聚 类 、 基 
于 网 络 的 聚 类 等 。 

基于 层次 的 聚 类 是 将 数据 集 分 为 不 同 的 层次 ,并 将 其 按照 分 解 或 合并 的 操作 方式 进行 
聚 类 ,主要 包括 BIRCH (Balanced Iterative Reducing and Clustering Using Hierarchies ) 、 
CURE(Clustering Using Representatives) 等 。 

基于 划分 的 聚 类 是 将 数据 集 划 分 为 A 个 簇 , 并 对 其 中 的 样本 计算 距离 ,以 获得 簇 中 心 
点 ,然后 以 簇 的 中 心 点 重新 迭代 计算 新 的 中 心 点 ,直到 个 簇 的 中 心 点 收敛 为 止 。 基 于 划分 
的 聚 类 包括 K 均值 (K-Means) 等 。 

基于 密度 的 聚 类 是 根据 样本 的 密度 不 断 增长 聚 类 ,最 终 形成 一 组 “密度 连接 ”的 点 集 ,其 
核心 思想 是 ,只 要 聚 类 复 之 间 的 密度 低 于 阔 值 ,就 将 其 合并 成 一 个 得, 它 可 以 过 滤 噪 声 , 聚 类 
结果 可 以 是 任何 形状 ,不 必 为 球形 ,主要 包括 DBSCAN(Density-Based Spatial Clustering of 
Application with Noise) .OPTICS(Ordering Points To Identify the Clustering Structure) 等 。 

1. BIRCH 算法 


BIRCH 算法 是 指 利用 层次 方法 来 平衡 迭代 规则 和 聚 类 , 它 只 需要 扫描 数据 集 一 次 , 便 
可 实现 聚 类 , 它 利 用 了 类 似 B 十 树 的 结构 对 样本 集 进行 划分 ,叶子 节点 之 间 用 双向 链表 进行 
链接 ,逐渐 对 树 的 结构 进行 优化 获得 聚 类 。 

其 主要 优点 是 空间 复杂 度 低 ,内 存 占用 少 , 效 率 较 高 ,能够 对 噪声 点 进行 滤 除 ,缺点 是 其 
树 中 节点 的 聚 类 特征 树 有 个 数 限制 ,可 能 会 产生 与 实际 类 别 个 数 不 一 致 的 情况 ; 对 样本 有 
一 定 的 限制 ,要 求 数 据 集 的 样本 是 超 球体 ,否则 聚 类 的 效果 不 佳 。 
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2. CURE 算法 

传统 的 基于 层次 聚 类 的 方法 得 到 的 是 球形 的 聚 类 ,对 异常 数据 较 敏 感 ,而 CURE 算法 
是 使 用 多 个 代表 点 来 替换 层次 聚 类 中 的 单个 点 ,算法 更 加 健壮 ,并 且 在 处 理 大 数据 时 采用 分 
区 和 随机 取样 ,使 其 处 理 大 数据 量 的 样本 集 时 效率 更 高 , 且 不 会 降低 聚 类 质量 。 

3. K 均值 算法 

传统 的 K-Means 算法 的 聚 类 过 程 是 在 样本 集中 随机 选择 个 聚 类 质心 点 ,对 每 个 样本 
计算 其 应 属于 的 类 ,在 得 到 类 簇 之 后 重新 计算 类 簇 的 质心 ,循环 迭代 ,直到 质心 不 变 或 收 化 。 
K-Means 存在 较 多 变 体 和 改进 算法 ,如 初始 化 优化 K-Means 十 十 算法 、 距 离 优 化 Elkan 
K-Means 算法 、K-Prototype 算法 等 。 

K-Means 算法 的 主要 优点 是 : 可 以 简单 快速 处 理 大 数据 集 , 并 且 是 可 伸缩 的 , 当 数 据 集 
中 结果 聚 类 之 间 是 密集 且 区 分 明显 时 , 聚 类 效果 最 好 。 缺 点 是 : 必须 先 给 定 & 值 , 即 聚 类 的 
数目 ,大 部 分 时 间 分 析 人 员 并 不 知道 应 该 设置 多 少 个 聚 类 。 另 外 ,K-Means 算法 对 值 较 
敏感 ,如 果 A 值 不 合理 ,可 能 会 导致 结果 局 部 最 优 (不 能 保证 全 局 最 优 ) 。 

4. DBSCAN 算法 

DBSCAN 算法 的 目标 是 : 过 滤 低 密度 区 域 , 发 现 稠密 度 样本 点 。 与 传统 的 基于 层次 的 
聚 类 和 划分 聚 类 的 凸 形 聚 类 簇 不 同 , 其 输出 的 聚 类 结果 可 以 是 任意 形状 的 聚 类 。 主 要 优点 
是 : 与 传统 的 K-Means 相 比 ,是 不 需要 输入 要 划分 的 聚 类 个 数 ; 聚 类 结果 的 形状 没有 偏 倚 ; 
支持 输入 过 滤 噪 声 的 参数 。 

DBSCAN 的 主要 缺点 是 : 当 数据 量 增 大 时 ,会 产生 较 大 的 空间 复杂 度 ; 当空 间 聚 类 的 
密度 不 均匀 、 聚 类 间距 差 很 大 时 , 聚 类 质量 较 差 。 

5. OPTICS 算法 

在 DBSCAN 算法 中 ,初始 参数 E( 邻 域 半径 ) 和 minPts(E 邻 域 最 小 点 数 ) 需 要 用 户 手 动 
设置 ,这 两 个 参数 较 关 键 ,不 同 的 取 值 将 产生 不 同 的 结果 。 而 OPTICS 克服 了 上 述 问题 ,为 
聚 类 分 析 生 成 一 个 增 广 的 簇 排序 ,代表 了 各 样本 点 基于 密度 的 聚 类 结构 。 


1.5.3 关联 分 析 


关联 分 析 (Associative Analysis) 通 过 对 数据 集中 某 些 属性 同时 出 现 的 规律 和 模式 来 发 
现 其 中 的 属性 之 间 的 关联 ,相关 、 因 果 等 关系 ,其 典型 的 应 用 是 购物 篮 分 析 ,通过 分 析 购 物 篮 
中 不 同 商品 之 间 的 关联 ,分 析 消费 者 的 购买 行为 习惯 ,从 而 制定 相应 的 营销 策略 ,为 商品 促 
销 、 产 品 定价 \ 位 置 摆 放 等 提供 支持 ,并 且 可 用 于 不 同 消费 者 群体 的 划分 。 关 联 分 析 主 要 包 
括 Apriori 算法 和 FP-growth 算法 。 

1. Apriori 算法 

Apriori 算法 的 主要 实现 过 程 是 : 首先 生成 所 有 频繁 项 集 , 然 后 由 频繁 项 集 构造 出 满足 
最 小 信任 度 的 规则 。Apriori 算法 依赖 的 重要 性 质 是 频繁 项 集 的 非 空子 集 也 是 频繁 项 集 。 

由 于 Apriori 算法 要 多 次 扫描 样本 集 ,需要 由 候选 频繁 项 集 生成 频繁 项 集 ,在 处 理 大 数 
据 量 数据 时 效率 较 低 , 其 只 能 处 理 分 类 变量 ,无 法 处 理 数值 型 变量 。 
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2. FP-growth 算法 

为 了 改进 Apriori 算法 ,Jiawei Han 等 人 提出 基于 FP 树 生成 频繁 项 集 的 FP-growth 算 
法 ,该 算法 只 进行 两 次 数据 集 扫描 , 且 不 使 用 候选 项 集 ,直接 按照 支持 度 构 造 出 一 个 频繁 模 
式 树 ,用 这 棵 树 生成 关联 规则 ,在 处 理 大 数据 集 时 效率 比 用 Apriori 算法 大 约 快 一 个 数量 
级 ,对 于 海量 数据 ,可 以 通过 数据 划分 、 样 本 采样 等 方法 进行 再 次 改进 和 优化 。 


1.5.4 回归 分 析 


回归 分 析 是 一 种 研究 自 变量 和 因 变 量 之 间 关 系 的 预测 模型 ,用 于 分 析 当 自 变量 发 生变 
化 时 , 因 变 量 的 变化 值 。 要 求 自 变量 不 能 为 随机 变量 ,需要 具有 一 定 的 相关 性 。 可 以 将 回归 
分 析 用 于 定性 预测 分 析 , 也 可 以 用 于 定量 分 析 各 变量 之 间 的 相关 关系 。 

1. 线性 回归 

应 用 线性 回归 进行 分 析 时 ,要求 自 变量 是 连续 型 或 离散 型 的 , 因 变 量 则 为 连续 型 的 , 线 
性 回归 用 最 适 直 线 (回归 线 ) 去 建立 因 变量 Y 和 一 个 或 多 个 自 变量 X 之 间 的 关系 。 

其 主要 的 特点 是 : 

(1) 自 变量 与 因 变量 之 间 必须 有 线性 关系 。 

(2) 多 重 共 线 性 、 自 相关 和 异 方差 对 多 元 线性 回归 的 影响 很 大 。 

(3) 线性 回归 对 异常 值 非常 敏感 ,其 能 严重 影响 回归 线 , 最 终 影响 预测 值 。 

(4) 在 多 元 的 自 变量 中 ,可 以 通过 前 进 法 、 后 退 法 和 逐步 法 去 选择 最 显著 的 自 变量 。 

图 1. 13 是 上 海 私家 车 车 牌 拍卖 中 ,竞拍 警示 价 和 最 后 平均 成 交 价 之 间 的 关系 。 由 于 参 
与 沪 牌 额度 拍卖 的 人 数 较 多 ,警示 价 人 为 干预 了 最 终 的 竞拍 价格 ,所 以 呈现 出 极 强 的 线性 
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图 1.13 沪 牌 拍卖 警示 价 与 平均 成 交 价 呈 线 性 关系 
虽然 其 线性 回归 的 结果 准确 率 达 到 98% 以 上 ,但 是 实际 应 用 中 依然 无 法 准确 预测 最 终 
的 平均 成 交 价格 ,原因 是 成 交 价 格 的 预测 误差 范围 要 求 在 300 元 以 内 ,说 明 在 实际 分 析 中 要 
与 目标 问题 的 环境 要 求 相 符合 ,而 不 是 一 味 追 求 高 准确 率 。 
2. 逻辑 回归 
逻辑 回归 一 般 应 用 在 分 类 问题 中 ,如 果 因 变量 类 型 为 序数 型 的 , 则 称 为 序数 型 逻辑 回 
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归 , 如 果 因 变量 为 多 个 , 则 称 为 多 项 逻辑 回归 。 逮 辑 回 归 的 主要 特点 是 : 

相 较 于 线性 回归 ,逻辑 回归 应 用 非 线性 对 数 转换 ,使 自 变量 与 因 变量 之 间 不 一 定 具有 线 
性 关系 才 可 以 分 析 。 

为 防止 模型 过 拟 合 ,要 求 自 变量 是 显著 的 , 且 自 变量 之 间 不 能 存在 共 线 性 。 可 以 使 用 逐 
步 回 归 法 筛选 出 显著 性 变量 ,然后 再 应 用 到 逻辑 回归 模型 中 。 

逻辑 回归 需要 大 样本 量 ,在 低 样本 量 的 情况 下 效果 不 佳 , 因 为 最 大 似 然 估计 在 低 样本 数 
量 时 其 统计 结果 误差 较 大 。 

3. 多 项 式 回归 

在 回归 分 析 中 ,有 时 会 遇 到 线性 回归 的 直线 拟 合 效果 不 佳 , 如 果 发 现 散 点 图 中 数据 点 呈 
曲线 状态 显示 时 ,可 以 考虑 使 用 多 项 式 回归 来 分 析 。 使 用 多 项 式 回归 可 以 降低 模型 的 误差 ， 
从 理论 上 多 项 式 可 以 完全 拟 合 曲线 ,但 是 如 果 处 理 不 当 , 易 造成 模型 结果 过 拟 合 , 在 分 析 完 
成 之 后 需要 对 结果 进行 分 析 , 并 将 结果 可 视 化 ,以 查看 其 拟 合 程度 。 

4. 逐步 回归 

处 理 多 个 自 变量 时 ,需要 用 逐步 回归 的 方法 自动 选择 显著 性 变量 ,不 需要 人 工 干 预 ,其 
思想 是 : 将 自 变量 逐个 引入 模型 中 ,并 进行 下 检验 .检验 等 来 筛选 变量 , 当 新 引入 的 变量 对 
模型 结果 没有 改进 时 ,将 其 剔除 ,直到 模型 结果 稳定 。 

逐步 回归 的 目的 是 保证 所 有 自 变 量 集 为 最 优 的 。 用 最 少 的 变量 去 最 大 化 模型 的 预测 能 
力 , 它 也 是 一 种 降 维 技术 。 主 要 的 方法 有 前 进 法 和 后 退 法 ,前 者 以 最 显著 的 变量 开始 ,逐渐 
增加 次 显著 变量 。 后 者 是 逐渐 剔除 不 显著 的 变量 。 

5. 岭 回归 

岭 回 归 又 称 为 疹 回 归 , 在 共 线 性 数据 分 析 中 应 用 较 多 ,是 一 种 有 偏 估计 的 回归 方法 ,在 
最 小 二 乘 估计 法 的 基础 上 做 了 改进 ,通过 舍弃 最 小 二 乘法 的 无 偏 性 ,以 损失 部 分 信息 为 代价 
使 得 回归 系数 更 稳定 和 可 靠 。 其 尺 方 值 会 稍 低 于 普通 回归 分 析 方法 ,但 其 回归 系数 更 加 显 
著 , 主 要 用 于 变量 之 间 存 在 共 线 性 和 数据 点 较 少时 的 情况 。 

6. LASSO 回归 

LASSO 回归 的 特点 与 岭 回 归 类 似 , 在 拟 合 模型 的 同时 进行 变量 筛选 和 复杂 度 调 整 。 
变量 筛选 是 逐渐 把 变量 放 人 模型 ,从 而 得 到 更 好 的 自 变量 组 合 。 复 杂 度 调整 是 通过 参数 调 
整 来 控制 模型 的 复杂 度 , 如 减少 自 变量 数量 等 ,从 而 避免 过 度 拟 合 。 

LASSO 回归 也 是 擅长 处 理 多 重 共 线 性 或 存在 一 定 噪 声 和 宛 余 的 数据 。 可 以 支持 连续 
型 因 变 量 , 二 元 、 多 元 离散 变量 的 分 析 。 

7. ElasticNet 回归 

ElasticNet 回归 结合 了 LASSO 回归 和 上 岭 回 归 的 优点 ,同时 训练 Ll1 和 L2 作为 惩罚 项 
在 目标 函数 中 对 系统 约束 进行 约束 ,所 以 其 模型 的 表示 系数 既 有 稀疏 性 ,又 有 正则 化 约束 ， 
特别 适用 于 许多 自 变量 是 相关 的 情况 ,这 时 ,LASSO 回归 会 随机 选择 其 中 一 个 变量 ,而 
ElasticNet 回归 则 会 选择 两 个 变量 。 相 较 于 LASSO 回归 和 上 岭 回 归 ,ElasticNet 回归 更 稳 
定 , 且 在 选择 自 变量 的 数量 上 没有 限制 。 
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1.5.5 深度 学 习 


深度 学 习 方 法 是 通过 构建 多 个 隐藏 层 和 大 量 数据 来 学 习 特 征 ,从 而 提升 分 类 或 预测 的 
准确 性 ,与 传统 的 神经 网 络 相 比 ,不 仅 在 层 数 上 更 多 ,而 且 采 用 了 逐 层 训练 的 机 制 来 训练 整 
个 网 络 , 以 防 出 现 梯度 扩散 。 深 度 学 习 包 括 了 卷 积 神经 网 络 (CNN) 、 深 度 神经 网 络 (DNN)、 
循环 神经 网 络 (RNN) 、 对 抗 神经 网 络 (GAN) 以 及 各 种 变种 网 络 结构 。 其 本 质 是 对 训练 集 
数据 进行 模式 识别 及 特征 提取 和 选择 ,然后 应 用 于 样本 的 分 类 。 

目前 ,深度 学 习 的 方法 在 图 像 和 音 视频 的 识别 、 分 类 和 模式 检测 等 领域 已 经 非常 成 熟 ， 
除 此 之 外 ,还 可 以 用 于 衍生 成 新 的 训练 数据 ,以 构建 对 抗 网 络 (GAN), 从 而 利用 两 个 模型 之 
间 互 相对 抗 提高 模型 的 性 能 。 

在 数据 量 较 多 时 可 考虑 采用 这 一 算法 ,应 用 深度 学 习 的 方法 进行 分 析 时 , 需 注意 训练 集 
(用 于 训练 模型 )、 开 发 集 ( 用 于 在 开发 过 程 中 调 参 和 验证 )、 测 试 集 的 样本 比例 ,一 般 以 
6 : 2 : 2 的 比例 进行 分 配 。 另 外 ,采用 深度 学 习 进 行 分 析 时 对 数据 量 有 一 定 的 要 求 ,如 果 数 
据 量 只 有 几 千 或 几 百 条 , 极 易 出 现 过 拟 合 的 情况 ,其 效果 不 如 使 用 SVM 等 分 类 算法 。 

常见 的 权重 更 新 方式 为 SGD 和 Momentum。 参 数 初始 值 设置 不 当 容 易 引起 梯度 消失 
或 梯度 爆炸 问题 ; 随 着 训练 时 间 的 推移 ,可 以 逐渐 减少 学 习 率 。 


1.5.6 统计 方法 


统计 方法 是 在 基于 传统 的 统计 学 、 概 率 学 知识 对 样本 集 数据 进行 统计 分 类 ,是 数据 分 析 
的 基本 方法 ,如 对 基于 性 别 的 数据 进行 分 类 、 对 年 龄 分 段 统 计 等 。 统 计 方 法 虽然 看 起 来 比较 
简单 ,但 是 在 数据 探索 阶段 尤其 重要 ,可 以 发 现 一 些 基本 的 数据 特征 。 分 析 技 术 并 没有 高 深 
简易 之 分 ,与 业务 相 结合 .实用 方便 才 是 关键 ,所 以 不 要 小 看 传统 的 统计 方法 。 经 过 认真 细 
致 的 分 析 探索 ,一 样 可 以 发 现 数据 中 列 藏 的 有 价值 的 规律 。 

统计 方法 源 于 用 小 样本 集 来 获得 整体 值 集 的 各 种 特征 ,主要 的 统计 方法 或 指标 包括 频 
率 度量 (如 众 数 指标 ) ,位 置 度量 (如 均值 或 中 位 数 ) 、 散 度 度 量 ( 如 极 差 ,方差 ,标准 差 等 ) . 数 
据 分 布 情况 度量 (如 频率 表 和 直方 图 )、 多 元 汇总 统计 (如 相关 和 矩阵 和 协 方差 矩阵 ) 。 

根据 汇总 统计 中 置信 度 的 计算 方法 ,置信 和 度 达到 95% 以 上 ,误差 为 一 2. 5%~2, 5%, 即 
置信 区 间 宽 度 为 5%, 在 汇总 统计 中 需要 的 样本 数 至 少 为 1000 个 ,样本 数量 越 多 ,其 误差 越 
小 ,所 以 在 此 类 分 析 中 要 尽 可 能 多 地 收集 数据 。 

在 描述 统计 分 析 时 ,往往 会 对 不 同 维度 进行 样本 分 拆 , 划 分 越 细 , 样 本 的 纯度 越 高 ,信息 
就 更 有 效 , 所 以 其 结论 的 准确 率 就 会 越 高 ,但 是 需要 注意 ,分 拆 之 后 子 维度 的 样本 数量 不 能 
过 少 ,和 否则 结论 过 低 会 失去 统计 意义 。 


1.6 数据 分 析 结 果 的 评价 
分 析 算法 及 其 衍生 的 算法 有 很 多 ,不 同 的 算法 具有 不 同 的 特点 ,并 且 在 不 同 的 数据 集 上 


表现 也 不 一 样 ,所 以 对 分 析 结 果 的 评价 很 重要 ,这 样 才 能 够 知道 在 何 种 情况 下 选择 何 种 算 
法 ,使 用 何 种 标准 能 达到 分 析 的 目标 。 
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对 结果 进行 分 析 时 ,常见 的 问题 是 容易 混 清 因果 关系 和 相关 性 ,例如 ,我 们 分 析 发 现 保 
养 比较 规律 的 汽车 比 保养 维修 不 规律 的 出 现 意 外 事故 的 概率 低 ,我 们 就 认为 保养 规律 与 不 
发 生意 外 事故 呈现 因果 关系 ,而 实际 上 可 能 是 因为 保养 规律 的 驾驶 人 更 自律 ,或 者 是 其 更 加 
认真 遵守 交通 规则 ,与 是 否 发 生意 外 事故 只 是 相关 关系 。 

在 模型 评价 中 容易 出 现 主观 性 问题 ,由 于 数据 采集 或 业务 理解 的 局 限 , 容 易 让 分 析 人 员 
认为 某 种 方案 的 改进 一 定 可 以 解决 企业 的 问题 ,没有 综合 数据 ,业务 .场景 等 多 个 维度 对 模 
型 分 析 结果 进行 解读 。 分 析 报 告 虽 然 很 有 逻辑 性 ,看 起 来 很 合理 ,但 是 不 符合 企业 实际 应 用 
场景 ,反而 对 企业 决策 产生 负面 作用 。 所 以 ,分 析 结 果 的 评估 需要 业务 专家 参与 ,对 结果 的 
合理 性 、 理 解 性 、 实 用 性 进行 评估 ,使 其 具有 落地 的 价值 。 


1.6.1 分 类 算法 的 评价 


对 分 类 算法 的 结果 评价 主要 有 精确 率 (Precision)、F-Score 准确 率 (Accuracy) 、 召 回 率 
(Recall) ,特效 度 (Specificity) ,ROC(Receiver Operating Characteristic) 曲 线 .曲线 包围 面积 
(Area Under Curve,AUC) 。 

上 述 指标 涉及 混淆 和 矩阵 的 概念 ,如 图 1. 14 所 示 , 其 中 总 记录 数 Total 为 4217 条 ,其 中 
TP 为 13 条 ,FP 为 175 条 ,FN 为 3 条 .TN 为 4026 条 ,其 中 ,精确 率 (Precision) 是 模型 精确 
性 的 度量 ,预测 正 例 数 占 所 有 正 例 数 的 比例 ,Precision 王 TP/(TP 十 FP) 王 13/(13 十 175) 一 
0.07 ,准确 率 (Accuracy) 是 所 有 预测 正确 的 记录 数 与 总 记录 数 之 比 , Accuracy 一 (TP 十 
TN)/Total 二 (13 十 4026)/(13 十 3 十 175 十 4026) 一 0. 96 ,召回 率 (Recall) 是 模型 覆盖 面 的 度 
量 ,是 表示 多 少 个 正 例 被 识别 为 正 例 , 体 现 了 分 类 器 对 正 类 的 识别 能 力 , 本 例 中 ,Recall 一 
TP/(TP 十 FN) 二 13/(13 十 3) 二 0. 81 ,特效 度 (Specificity) 是 表示 所 有 负 例 被 识别 正确 的 比 
例 , 度 量 的 是 对 负 例 的 识别 能 力 ,Specificity 二 TN/(FP 十 TN) 一 4026/(4026 十 175) 王 0. 96 。 





























混淆 矩阵 
实测 预测 
实测 预测 Yes No 比例 正确 
Positive | Negative Yes TP=13 | FP=175 | 0.07 
Positive TP FP No FN=3 |TN=4026| 1.00 
Negative FN TN 比例 正确 | 0. 81 0. 96 0.96 



































图 1.14 混淆 矩阵 示例 


图 1. 14 中 ,TP(True Positive) 表 示 样 本 的 真实 类 别 为 正 ,最 后 预测 得 到 的 结果 也 为 
正 。FP(False Positive) 表 示 样 本 的 真实 类 别 为 负 , 最 后 预测 得 到 的 结果 却 为 正 。FN(False 
Negative) 表 示 样 本 的 真实 类 别 为 正 ,最 后 预测 得 到 的 结果 却 为 负 。TN(True Negative) 表 
示 样 本 的 真实 类 别 为 负 , 最 后 预测 得 到 的 结果 也 为 负 。 

ROC 曲线 由 负 正 类 率 (False Positive Rate,FPR) 作 为 横 坐 标 , 正 正 类 率 (True Positive 
Rate,TPR) 作 为 纵 坐 标 。ROC 曲线 距离 参考 线 越 远 ,其 检验 的 准确 度 越 高 。AUC 是 ROC 
曲线 下 的 面积 ,其 值 越 大 越 好 。 

对 于 不 同 的 分 析 任务 ,可 在 上 述 指标 中 选择 某 几 个 作为 衡量 标准 。 例 如 ,在 疾病 预测 
时 ,需要 着 重 关注 召回 率 , 而 不 是 精确 率 , 因 为 疾病 在 多 数 情况 下 是 正 例 (不 患 病 ), 负 例 ( 患 
病 ) 较 少 ,两 个 类 的 样本 比例 差别 很 大 的 情况 下 ,例如 .100 条 记录 中 ,5 次 发 现 患 病 , 其 中 
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4 次 为 误 报 ,1 次 为 识别 出 来 , 相 较 于 全 部 识别 为 正常 的 精确 率 99% ,虽然 精确 率 降 低 为 
96% ,但 是 Recall 却 由 原来 的 0/1 二 0% 上 升 到 1/1 二 100% ,虽然 误 报 了 疾病 (经 过 复查 可 以 
排除 ) ,但 是 却 没有 遗漏 错过 真正 患 病 的 人 群 。 

可 以 通过 分 析 软 件 对 分 类 结果 进行 自动 化 分 析 , 例 如 ,在 SPSS Modeler 中 可 以 在 生成 
的 模型 后 面 连接 一 个 “分 析 ” 节 点 ,运行 它 即 可 获得 前 述 的 各 项 分 析 结 果 , 其 属性 配置 及 分 析 
结果 如 图 1. 15 所 示 。 


局 输出 字段 是 否 存在 欺诈 的 结果 





让 单独 模型 
自 比较 $D- 是 否 存在 欺诈 与 是 否 存在 欺诈 
工 z 
正确 Da 1 
铺 误 668 “15.94% 280 16.3 
总 计 4,191 1.708 
筷 $D- 是 否 存在 网 诈 的 符合 短 阵 ( 行 表示 实际 值 ) 
















ee 分析 


加 分 析 $D- 是 否 存在 欺诈 





















重合 矩阵 (用 于 字符 型 目标 字段 ) 
网 绩效 评估 1 1.43 
区 评估 度量 (AUC & Cini， 仅 限于 二 元 分 类 器) | ina a 
网 | 加 信 度 图 ( 如 果 可 用 】 a .507] 
Es 所 $DP- 是 天 存在 网 诈 的 置信 朗 值 报告 
闭 值 用 于 90 围 x 正 确 | 加" 工夫 
0.504 -1.0| 
改善 准确 性 : 2.0 赎 折 李 | 下 岁 正 多 性 0.902| 
Ed 0 的 6 
车 四 | 正确 性 始终 高 于 A 
使 用 以 下 内 容 查找 目标 /预测 变量 字 自 : 不 正太 性 她 钱 多 于 0.508 (观测 值 的 0.14%) 
加 模型 输出 字段 元 数据 | 以 上 的 准确 性 0,601| 
口 字段 名 格式 (例如 ，'S<x>-<target field>) ET 322.04% 
园 按 分 区 分 隔 ET 0.502 -1.0| 
口 用 户 定义 的 分 析 【正义 于 忆 天 三 届 帮 二 一 于 和 
| 正确 性 她 终 丙 于 1.0 (观测 值 的 0%) 
按 字 段 分 解 分 析 : | 不正 确 性 始 捷 低 于 | 509 (观测 值 的 0.23%) 
| 90.01% 以 上 的 准确 性 0.60]| 
2.0 以 上 的 折 禾 正确 性 0.774 (观测 值 的 91.87%) 
2 评估 度 时 
RL 工 现 林 二 
模型 AUC Cini _AUC Cini 
[| A aa sp-a ER 5847 0:695 0.919 0.837 





图 1.15 分 析 节 点 属性 配置 及 分 析 结 果 


在 属性 选择 中 选中 “重合 矩阵", 可 以 显示 混淆 矩阵 的 数值 ,如 果 选 中 “置信 和 度 图 ”, 则 会 
显示 置信 和 度 值 报告 ,在 评估 度量 中 可 以 查看 分 区 中 训练 集 和 测试 集 的 AUC 和 Gini 值 。 


1.6.2 聚 类 结果 的 评价 


由 于 聚 类 是 在 没有 类 别 标准 的 情况 下 对 数据 进行 类 得 划分 ,所 以 聚 类 分 析 结 果 的 评价 
首先 要 由 业务 专家 对 其 业务 含义 进行 评估 ,通过 应 用 到 实际 场景 中 来 评价 结果 的 好 坏 ,看 一 
下 其 区 分 程度 。 

应 用 散 点 图 查看 聚 类 结果 ,将 聚 类 结果 通过 散 点 图 的 形式 显示 到 二 维 或 三 维 的 空间 中 ， 
查看 各 个 聚 类 的 分 布 情况 ,可 以 直观 看 到 类 与 类 之 间 的 区 分 程度 。 例 如 ,在 SPSS Modeler 
中 可 以 使 用 * 图 形 板 ?节点 可 视 化 显示 聚 类 中 各 维度 变量 的 结果 , 除 此 之 外 ,还 有 以 下 聚 类 
指标 。 

1. RMSSTD(Root Mean Square STD) 

RMSSTD 表示 群体 中 所 有 变量 的 综合 标准 差 ,RMSSTD 越 小 表明 群体 内 个 体 对 象 相 
似 程度 越 高 , 聚 类 效果 越 好 。 
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2. R Square 

R Square 表示 上 聚 类 后 群体 间 差 异 的 大 小 ,R Square 越 大 表明 不 同 的 徐 群 间 的 相 异 度 越 
高 , 聚 类 效果 越 好 。 

3. SRP(Semi Partial R square) 


SRP 用 于 凝聚 层次 聚 类 算法 的 评价 ,表示 当 原 来 两 个 群体 合并 成 新 群体 的 时 候 , 其 所 
损失 的 群 内 相似 性 的 比例 。 一 般 来 说 ,SRP 越 小 ,表明 合成 新 的 群体 时 ,损失 的 群 内 相似 性 
比例 越 小 ,新 群体 的 相似 性 就 越 高 , 聚 类 效果 就 越 好 。 

4. 簇 类 间距 离 

簇 类 间距 离 主要 用 于 层次 聚 类 算法 的 聚 类 评价 ,表示 在 要 合并 两 个 细 分 群体 时 ,分 别 计 
算 两 个 群体 的 中 心 ,以 求 得 两 个 群体 的 距离 。 一 般 情 况 下 , 聚 类 间 的 距离 越 小 说 明 两 个 聚 类 
越 适 合 合并 成 一 个 新 的 聚 类 。 


1.6.3 关联 分 析 的 评价 


关联 分 析 中 几 个 重要 的 概念 分 别 是 支持 度 (Support) 、 和 置信 和 度 (Confidence) ,提升 度 (Lift)。 
其 中 ,支持 度 是 指 某 一 项 集 (若干 个 商品 的 集合 ) 出 现 的 可 能 性 , 即 support{z->y} 一 PCz,y)， 
如 果 支 持 度 较 低 , 则 这 一 项 集 非 频 繁 项 集 , 不 具有 研究 价值 。 

置信 和 度 是 指 项 集中 z 出 现 的 情况 下 ,y 出 现 的 概率 , 即 包括 x 的 项 集中 同时 包括 y 的 可 
能 性 : Confidence(x,y) 二 PC(y|zx) 二 P(xz,y)/P(zx); 提升 度 是 在 包含 y 的 项 集中 ,同时 包含 
工 的 项 集 比 例 ,Lift(zx->y) 二 Pl(y|zx)/P(y) 二 Confidence(x->y)/P(y)。 提 升 度 是 为 了 弥 
补 置信 和 度 的 缺陷 ,主要 用 于 分 析 xz 与 y 之 间 的 关联 强度 , 值 越 高 说 明 关 联 性 越 强 。 


1.6.4 回归 分 析 结 果 的 评价 


回归 分 析 结 果 的 评价 分 为 两 部 分 ,首先 是 模型 指标 ,是 对 模型 结构 合理 性 和 显著 性 进行 
评价 。 其 次 是 回归 模型 中 回归 系数 的 评价 指标 。 

模型 指标 包括 R、R 方 、 调 整 R 方 (Adjusted R Square)、 因 变量 预测 标准 误差 (Std 
Error of the Estimate) ,总 离 差 .自由 度 .平均 离 差 (Mean Square) .下 值 \F 值 的 显著 性 水 平 
(Sig) ,模型 个 例 数 (N) ,其 中 比较 重要 的 是 以 下 5 个 。 

1. R 方 

在 模型 概述 表 中 查看 ,用 于 评价 回归 模型 的 总 体 表现 ,又 称 为 确定 性 系数 ,表示 自 变量 
对 因 变 量 的 解释 程度 , 取 值 为 0 一 1, 值 越 大 ,说 明 解 释 能 力 越 强 。 

2. 调整 R 方 

调整 RR 方 是 对 R 方 进行 修正 后 的 值 , 对 非 显著 性 变量 给 出 惩罚 ,没有 尺 方 的 统计 学 意 
义 , 与 实际 的 样本 的 数值 无 关 , 相 较 于 尽 方 .其 误差 较 少 , 是 回归 分 析 中 重要 的 评价 指标 ,其 
值 越 大 说 明 模型 效果 越 好 。 

3. 因 变 量 预测 标准 误差 

标识 因 变 量 的 实际 值 与 预测 值 的 标准 误差 ,其 值 越 小 说 明 模型 的 准确 性 越 高 ,代表 性 越 
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强 , 拟 合 性 越 好 。 

4. 下 值 

在 方差 分 析 表 中 查看 ,用 于 检测 回归 方法 的 相关 关系 是 否 显著 ,如 果 显 著 性 水 平 (Sig) 
指标 大 于 0. 05 ,表示 相关 性 较 弱 ,没有 实际 意义 ,如 果 Sig 指标 小 于 0. 05, 但 是 各 自 变量 的 
Sig 指标 均 超过 0. 05 ,就 需要 应 用 上 检验 来 查看 回归 系数 表 中 各 变量 的 显著 性 水 平 ,或 者 是 
由 于 自 变量 之 间 出 现 了 共 线 性 问题 ,需要 通过 逐步 回归 的 方法 将 显著 性 较 差 的 自 变量 剔除 。 

二 


NN 显示 的 是 应 用 于 模型 的 实际 样本 数量 ,可 能 有 部 分 数据 存在 空 值 或 其 他 异常 值 , 导 
致 模型 的 个 案 数 少 于 样本 数 ,如果 发 现 其 值 较 大 ,需要 对 数据 重新 进行 预 处 理 。 

多 元 回归 方程 公式 : 

Y= t+hXi+b Xs 二 "十 bX 十 e Ls 

要 求 每 个 X; 必须 是 相互 独立 的 ,其 中 b; 表示 回归 系数 。 回 归 系 数 可 以 从 回归 系数 表 
中 查看 ,其 评价 指标 主要 包括 以 下 4 个 。 

1) 非 标准 化 系数 (Unstandardized Coefficients) 

非 标 准 化 系数 就 是 多 元 回归 方程 式 (1.1) 中 的 b; ,表现 在 几何 上 是 斜率 。 由 于 其 数值 与 
实际 的 自 变量 数值 的 单位 ,彼此 之 间 无 法 进行 比较 ,为 了 对 非 标 准 化 系数 的 准确 性 进行 稀 
量 , 使 用 非 标准 化 系数 误差 (CSER) 来 对 样本 统计 量 的 离散 程度 和 误差 进行 衡量 ,也 称 为 标准 
误差 , 它 表 示 样 本 平均 值 作 为 总 体 平 均 估 计 值 的 准确 度 ,SER 值 越 小 说 明 系 数 预测 的 准确 
性 越 高 。 

2) 标准 化 系数 (Standardized Coefficients) 

在 多 元 回归 分 析 中 ,由 于 各 自 变 量 的 单位 可 能 不 一 致 ,就 难以 看 出 哪 一 个 自 变 量 的 权重 较 
高 ,为 了 比较 各 自 变量 的 相对 重要 性 ,将 系数 进行 标准 化 处 理 , 标 准 化 系数 大 的 自 变 量 更 重要 。 

3) ! 检验 及 其 显著 性 水 平 (Sig) 

t 检验 的 值 是 以 标准 误差 的 单位 度量 观测 样本 统计 量 与 假设 值 之 间 的 差 ,: 值 相 对 越 
大 ,表示 模型 能 以 更 高 的 精度 估计 系数 ,其 Sig/p 指标 小 于 0. 05, 说 明显 著 性 水 平 较 高 ,如 
果 t 值 较 小 且 Sig/p 指标 较 高 ,说 明 变 量 的 系数 难以 确认 ,需要 将 其 从 自 变量 中 剔除 ,然后 继 
续 进 行 分 析 。 

4) B 的 置信 区 间 (95% Confidence Interval for B Upper/Lower Bound) 

B 的 置信 区 间 用 来 检验 B 的 显著 性 水 平 ,主要 为 了 弥补 1 检验 和 其 Sig 值 的 不 足 , 如 果 
B 的 置信 区 间 下 限 和 上 限 之 间 包 含 了 0 值 , 即 下 限 小 于 0 而 上 限 大 于 0, 则 说 明 变 量 不 显 
著 。 在 SPSS 分 析 时 ,可 以 选择 “专家 ?选项 卡 中 的 输入 选项 进入 高 级 统计 ,选中 “参数 估 
计 ”, 以 显示 B 的 95% 置 信和 区 间 的 上 限 和 下 限 。 


1.6.5 深度 学 习 的 评价 


深度 学 习 的 模型 也 可 以 分 为 监督 式 学 习 和 非 监 督 式 学 习 两 种 。 用 于 分 类 的 深度 学 习 模 
型 其 结果 的 评价 与 分 类 算法 一 致 ,以 准确 率 (Accuracy)、 精 确 率 (Precision)、 召 回 率 
(Recall) ,Fl 分 值 (Fl Score) 为 主 , 辅 以 ROC、AUC, 并 结合 实际 应 用 场景 进行 结果 评价 。 

如 果 深 度 学 习 的 应 用 方向 是 聚 类 的 目的 ,数据 源 并 没有 进行 标记 ,那么 其 模型 结果 的 评 
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价 按照 聚 类 算法 的 标准 来 操作 ,如 RMSSTD、R Square、SRP 等 。 


1.7 数据 分 析 团 队 的 组 建 


随 着 大 数据 、 人 工 智能 广泛 受到 关注 ,各 企业 的 决策 者 已 经 具备 了 数据 驱动 业务 的 意 
识 , 认 识 到 数据 分 析 对 企业 发 展 的 潜在 推动 力 , 其 中 ,在 信息 技术 ,金融 等 信息 化 程度 较 高 的 
行业 ,数据 分 析 团队 建设 处 于 领先 地 位 在 公共 管理 ,医疗 ,能 源 、 科 教 等 领域 中 已 经 具备 了 信 
息 化 基础 ,也 在 逐步 自 建 或 外 包 数 据 分 析 团 队 , 像 制造 业 、 建 筑 行业 等 传统 行业 还 处 在 信息 
化 建设 时 期 ,未 来 对 数据 分 析 的 需求 较 大 。 

目前 ,数据 分 析 团 队 属于 新 出 现 的 职能 部 门 ,很 多 数据 分 析 团 队 的 建设 过 程 也 面临 着 一 
些 问 题 , 如 数据 分 析 结 果 很 难 落地 ,业务 部 门 缺乏 协作 的 动力 ,数据 分 析 人 才 紧 缺 等 ,导致 虽 
然 公司 领导 对 数据 分 析 团队 寄予 厚望 ,但 实际 对 业务 带 来 的 价值 却 有 限 。 面 对 这 些 问 题 ,就 
要 求 机 构 在 组 建 数据 分 析 团 队 时 ,要 建立 清晰 的 团队 建设 目标 ,将 数据 分 析 纳入 决策 流程 ， 
真正 建立 数据 驱动 的 决策 文化 。 

在 实践 中 可 按 机 构 的 信息 化 水 平和 业务 特点 渐进 地 构建 数据 分 析 团 队 。 常 见 的 数据 团 
队 的 组 织 架 构 分 为 金字 塔 式 和 矩阵 式 ,前 者 由 首席 数据 官 或 项 目 经 理 作为 领导 者 ,带领 数据 
科学 家 .数据 工程 师 和 业务 专家 ,配合 各 个 业务 部 门 进行 府 入 式 分析 工 作 , 这 种 模式 可 以 将 
分 析 技 术 进 行 复 用 ,又 可 以 快速 响应 业务 部 门 的 要 求 。 和 矩阵 式 结构 通常 没有 具体 的 负责 人 ， 
而 是 以 数据 采集 ,数据 清洗 、 数 据 分 析 、 决 策 报告 等 工作 来 划分 小 团队 ,同一 个 小 团队 可 以 向 
多 个 业务 部 门 提供 服务 ,其 好 处 是 各 数据 小 团队 专业 做 自己 擅长 的 技术 ,数据 分 析 专 业 化 程 
度 较 高 ,缺点 是 要 求 数据 团队 的 成 员 对 各 业务 部 门 知识 都 熟悉 。 

数据 分 析 团 队 按 照 职能 划分 ,可 以 分 为 项 目 经 理 、 业 务 专家 、 数 据 提 取 人 员 、 预 处 理 人 
员 、 建 模 人 员 ,测试 人 员 ,在 实际 的 分 析 过 程 中 可 以 将 部 分 职能 岗位 进行 细 分 或 合并 ,如 数据 
提取 人 员 和 数据 预 处 理 人 员 可 为 同一 (组 ) 人 。 


1.7.1 项 目 经 理 


项 目 经理 或 团队 领导 者 通常 肩负 着 定义 团队 目标 、 组 建 管理 团队 .出品 数据 分 析 报 告 等 
至 关 重 要 的 职责 ,主要 负责 整个 分 析 任 务 的 目标 设计 、 分 工 协调 方案 设计 和 最 终 分 析 报 告 
的 总 结 生成 等 ,其 核心 工作 在 于 将 各 职能 人 员 的 目标 尽 可 能 保持 一 致 , 并 对 各 成 员 的 输出 进 
行 确认 ,以 防 出 现 数据 处 理 不 合格 影响 模型 的 效果 ,最 终 无 法 得 到 最 优 模型 。 

要 求 项 目 经 理 具备 丰富 的 项 目 管理 经 验 , 对 算法 、 模 型 .技术 有 一 定 的 了 解 , 最 好 是 技术 
出 身 , 既 可 研究 技术 ,又 可 沟通 业务 ,能 够 与 业务 部 门 合 作 ,减少 团队 成 员 的 工作 阻力 ,激发 
团队 热情 ,挖掘 更 多 的 数据 价值 。 


1.7.2 业务 专家 


在 某 些 专业 化 较 强 的 领域 中 ,数据 分 析 人 员 需 要 尽快 熟悉 业务 需求 ,在 业务 专家 的 指导 
下 对 需求 或 目标 进行 细 化 ,以 制定 相应 的 数据 要 求 说 明 书 和 分 析 模 型 设计 规划 。 业 务 专家 
的 角色 在 数据 分 析 中 非常 重要 ,对 模型 在 实际 应 用 中 进行 应 用 检验 都 需要 他 们 的 确认 ,否则 
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模型 容易 出 现 某 些 行业 常识 性 错误 。 
1.7.3 数据 工程 师 


数据 工程 师 须 具有 编程 能 力 ,对 算法 数据 架构 .软件 工程 有 深入 理解 ,如 果 对 数据 分 析 
有 一 定 的 理解 更 好 ,其 主要 工作 是 将 分 析 模 型 集成 和 应 用 , 除 此 之 外 ,还 要 对 数据 进行 收集 、 
整理 和 数据 清洗 ,好 的 数据 质量 可 以 极 大 减少 建 模 的 工作 量 和 提高 模型 的 性 能 。 另 外 ,模型 
在 实际 业务 流程 中 的 部 署 和 维护 都 需要 工程 师 有 较 高 的 软件 系统 设计 能 力 和 开发 能 力 。 从 
职能 上 可 将 数据 分 析 工 程 师 细 分 为 : 数据 平台 架构 师 、 开 发 工程 师 、 运 维 工 程 师 等 。 

在 数据 分 析 过 程 中 ,很 多 数据 是 可 遇 不 可 求 的 ,在 实际 分 析 过 程 中 需要 对 第 三 方 的 数据 
进行 提取 ,以 补充 到 数据 集中 ,要 求 这 部 分 人 员 有 一 定 的 编程 经 验 ,特别 是 要 掌握 一 定 的 疏 
虫 技 术 , 对 HTTP 等 网 络 协议 有 一 定 了 解 , 能 够 在 较 短 的 时 间 内 编写 相应 的 代码 对 网 站 内 
容 进 行 疏 取 。 常 见 的 疏 取 编程 语言 为 人 语言 .Python 等 ,其 优势 是 目前 有 较 多 的 第 三 方 框 
架 支 持 快 速 抓 取 内 容 , 当 然 ,Java 或 C# 也 可 以 实现 相同 的 功能 。 

数据 预 处 理 的 主要 工作 是 对 数据 进行 数据 清洗 ,包括 去 除 空 值 .异常 数据 ,从 而 提高 原 
始 数据 集 的 质量 ,另外 一 项 工作 是 通过 对 数据 进行 多 表 关 联 查询 和 统计 ,将 复杂 字段 统计 之 
后 提交 给 模型 分 析 人 员 ,减少 模型 的 预 处 理 时 间 ,提高 效率 ,并 可 以 在 建 模 之 前 对 数据 进行 
探索 ,能 够 进行 统计 型 的 数据 分 析 。 


1.7.4 数据 建 模 人 员 


数据 建 模 人 员 包 括 两 大 类 ,分别 是 数据 分 析 师 和 数据 挖掘 工程 师 , 前 者 要 有 科研 能 力 ， 
主要 工作 是 对 行业 数据 进行 整理 .分 析 , 以 做 出 行业 研究 .评估 和 预测 等 ,通过 使 用 工具 软件 
来 实现 数据 的 商业 意义 。 数 据 分 析 师 至 少 要 熟练 掌握 SPSS Statistic、Eview、SAS 等 数据 
分 析 软 件 中 的 一 种 ,最 好 具有 一 定 的 编程 能 力 。 

数据 挖掘 工程 师 需要 具有 一 定 的 数学 知识 ,掌握 类 似 高 等 数学 .概率 统计 、 线 性 代数 等 
数理 常识 ,要 对 各 种 分 类 、 聚 类 ,关联 .回归 等 算法 特点 和 应 用 条 件 较 熟 悉 , 能 够 结合 业务 情 
况 和 实际 提供 的 数据 集 进行 算法 选择 ,并 且 能 够 对 算法 进行 一 定 程 度 的 调 优 。 


1.7.5 可视化 人 员 


一 图 胜 千言 ,分 析 结 果 的 呈现 是 整个 分 析 任 务 的 整体 表现 。 好 的 数据 可 视 化 不 仅仅 采 
用 图 形 表格 ,而 且 将 数据 变化 的 过 程 和 趋势 进行 动态 展示 ,需要 可 视 化 人 员 依 据 行业 或 产品 
进行 设计 ,按照 场景 和 性 能 要 求 , 选 择 合适 的 可 视 化 技术 ,并 制作 样 例 。 优 秀 的 可 视 化 工程 
师 不 仅 可 进行 视觉 设计 ,还 具有 一 定 的 前 端 开发 能 力 ,使 用 Node. js 或 其 他 第 三 方 组 件 进行 
数据 动态 展现 。 


1.7.6 评估 人 员 


模型 建 好 后 ,需要 在 测试 环境 和 生产 环境 中 进行 测试 和 验证 ,评估 人 员 在 业务 专家 的 配 
合 下 对 模型 进行 不 同 应 用 场景 的 测试 ,以 便 查找 模型 中 的 过 拟 合 、 异 常情 况 处 理 不 足 等 问 
题 ,特别 是 在 医疗 领域 ,需要 经 过 多 轮 反复 验证 后 才 可 以 投入 使 用 。 
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1.8 数据 分 析 人 才 培 养 的 难题 


数据 分 析 行业 可 附加 至 其 他 行业 中 ,为 各 行 各 业 提供 技术 支持 ,所 以 这 方面 的 人 才 需 求 
缺口 很 大 ,只 要 具有 一 定 的 数据 分 析 能 力 ,薪资 待遇 普遍 较 高 ,但 是 岗位 要 求 不 低 ,需要 的 是 
复合 型 人 才 , 具 有 发 现 问题 分 析 问题 ,解决 问题 的 能 力 , 能 够 结合 商业 ,数据 ,问题 等 形成 解 
决 方案 。 

具体 来 看 ,数据 分 析 人 员 需 要 掌握 数据 挖掘 ,统计 学 ,数学 等 基本 的 数理 原理 和 常识 , 需 
要 掌握 并 熟练 运用 某 一 数据 挖掘 软件 ,如 SPSS、SAS.R 等 , 除 此 之 外 ,还 需要 熟悉 各 类 模型 
算法 的 特点 ,以 及 在 各 种 场景 中 如 何 进行 选择 和 应 用 ,相应 的 人 才 标 准 较 高 ,培养 难度 较 大 ， 
需要 经 过 实战 案例 训练 逐步 提高 数据 挖掘 水 平 。 


1.8.1 数理 要 求 高 


鉴于 数学 相关 专业 的 学 习 曲 线 较为 陡峭 ,大 多 数 人 对 于 数学 相关 的 理论 望 而 生 旦 ,越发 
难以 深入 学 习 , 目 前 对 从 事 数 据 分 析 行 业 的 人 才 这 方面 的 要 求 较 高 ,在 数据 分 析 过 程 中 需要 
应 用 高 等 数学 、 线 性 代数 、 概 率 论 、 离 散 数学 统计 学 等 ,对 数理 理论 缺乏 原理 上 的 研究 ,在 模 
型 建 模 过 程 中 很 难 做 到 创新 ,只 能 照 猫 画 虎 进行 模仿 。 


1.8.2 跨 学 科 综 合 能 力 


如 果 是 开发 人 员 ,可 以 通过 编程 实现 ,可 以 使 用 Python 等 语言 应 用 相关 模型 ,或 者 使 
用 Weka 框架 来 实现 ,这 就 需要 有 一 定 的 软件 工程 师 的 背景 ,或 者 具有 较 快 的 跨 学 科学 习 和 
应 用 能 力 , 可 以 快速 使 用 现 有 框架 进行 模型 建 模 和 应 用 。 

在 目前 的 软件 从 业 人 员 中 ,大 部 分 开发 人 员 对 数理 知识 并 不 精通 ,特别 是 统计 学 等 理 
论 ,而 数学 .统计 学 等 专业 人 员 往 往 更 精通 理论 ,而 缺少 编程 经 验 , 对 于 快速 实现 模型 的 应 用 
又 具有 局 限 ,特别 是 在 数据 提取 、 预 处 理 、 分 析 结 论 可 视 化 等 方面 ,需要 与 软件 开发 进行 
配合 。 

数据 分 析 过 程 中 需要 掌握 的 技术 除了 SPSS 等 建 模 软件 和 分 类 、 聚 类 、 回 归 等 算法 外 ， 
还 需要 对 Hadoop、Spark、Storm、MapReduce 等 平台 具有 应 用 经 验 ,对 编程 语言 的 要 求 是 至 
少 熟 练 运用 C++ 、Java、Python、R 等 语言 中 的 一 种 ,同时 还 要 求 熟悉 数据 库 、 存 储 等 知识 , 具 
有 一 定 的 数据 优化 能 力 。 综 合 能 力 要 求 较 高 .而 上 述 技 术 或 框架 近 几 年 刚 开始 流行 且 更 新 
很 快 ,每 个 分 支 达 到 熟练 应 用 均 需 花费 较 长 时 间 进 行 学 习 与 实践 ,对 从 业者 能 力 和 能 否 持 续 
学 习 都 需要 考验 。 


1.8.3 国内 技术 资料 少 


由 于 数据 分 析 属 于 IT 行业 新 兴 行 业 分 支 ,国内 的 技术 资料 较 少 ,如 果 要 与 时 俱 进 , 须 
直接 阅读 国外 资料 ,这 就 要 求 具有 一 定 的 英文 水 平 , 能 够 流畅 阅读 国外 技术 资料 和 书籍 , 同 
时 要 具有 较 强 的 信息 检索 和 查找 能 力 , 遇 到 问题 时 ,可 快速 定位 问题 的 原因 ,并 获取 其 他 人 
的 解决 方案 。 
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1.8.4 实践 机 会 少 


目前 数据 分 析 行业 的 实践 机 会 较 少 , 一 方面 是 企业 对 数据 分 析 的 投入 相 较 信息 化 建设 
较 少 ,数据 分 析 项 目 虽然 越 来 越 多 ,但 总 体 数量 上 仍然 具有 更 大 的 潜力 ; 另 一 方面 ,软件 开 
发 和 数学 专业 的 从 业 人 员 更 愿意 停留 于 当前 专业 领域 中 ,对 于 主动 从 事 跨 专 业 研 究 的 动力 
不 足 , 随 着 数据 分 析 人 员 的 需求 增多 ,待遇 随 之 水 涨 船 高 , 必 将 吸引 更 多 的 人 才 进 入 数据 分 
析 行 业 。 

数据 分 析 行 业 虽 然 前 景 好 、 待 遇 高 、 人 才 需 求 大 ,与 其 他 行业 一 样 ,并 非 所 有 人 都 适合 从 
事 此 行业 ,信行 前 首先 要 对 岗位 和 自身 进行 评估 ,好 好 思考 这 些 问题 : What, Why, How， 
即 : 数据 分 析 行 业 是 干什么 的 ? 有 哪些 知识 要 求 ? 我 为 什么 要 加 入 这 一 行业 ?是 因为 兴趣 
吗 ? 我 自身 有 哪些 优势 条 件 ? 要 想 达 到 较 高 的 水 平 ,要 如 何 干 ? 可 从 以 下 几 个 方面 进行 
评估 。 

职业 爱好 : 数据 分 析 行 业 仍然 属于 IT 行业 ,这 一 行业 普遍 要 求 务实 严谨、 少 说 多 做 的 
风格 ,属于 在 后 台 默 默 工作 付出 的 那 一 层级 ,需要 思考 能 否 与 枯燥 的 代码 为 伴 ,并 乐 在 其 中 。 

思维 能 力 : 数据 分 析 人 员 要 求 具有 较 强 的 逻辑 思维 和 推理 能 力 ,需要 从 数字 中 探寻 出 
业务 的 核心 规律 ,最 好 能 有 见 微 知 著 和 创新 的 能 力 ,如果 经 过 培训 之 后 仍然 对 数据 无 感觉 或 
不 敏感 ,可 能 说 明 不 适合 与 数据 打交道 。 

学 习 能 力 : 技术 发 展 很 快 ,需要 不 断 学 习 新 的 技术 、 新 的 处 理 过 程 等 ,这 是 与 其 他 行业 
差别 较 多 的 地 方 。 在 IT 行业 中 , 某 一 项 技术 从 流行 到 消失 一 般 只 有 几 年 的 时 间 , 所 以 要 求 
从 业 人 员 不 断 学 习 , 不 断 提高 。 当 然 ,IT 行业 的 原理 性 知识 ,如 数理 知识 数据 结构 ,操作 系 
统 等 技术 理论 变化 很 少 ,主要 的 变化 还 是 理论 的 具体 应 用 ,但 万 变 不 离 其 宗 。 

沟通 能 力 : 数据 分 析 行 业 需 要 跨 部 门 沟通 ,与 业务 部 门 、 研 发 部 门 进 行 合作 ,特别 是 项 
目 经 理 等 领导 岗位 , 既 要 有 合作 意识 ,又 要 有 推动 能 力 ,在 协调 过 程 中 争取 更 多 的 支持 ,减少 
摩擦 ,使 最 终 分 析 结 果 能 够 给 各 企业 带 来 正 向 收益 。 

业务 知识 : 理解 业务 知识 可 以 快速 选择 合适 的 模型 和 算法 , 少 走 很 多 弯路 ,不 需要 对 模 
型 结果 反复 评估 ,就 可 以 确认 此 模型 是 否 符合 业务 需要 。 理 解数 据 与 业务 流程 .组 织 架构 对 
企业 的 影响 ,对 业务 具有 敏感 度 可 以 更 好 地 推动 数据 分 析 为 产品 服务 ,不 至 于 闭门造车 ,最 
终 帮 业务 部 门 提供 快速 决策 支持 。 
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第 人 兰 


一 一 保险 产品 推荐 


数据 挖掘 算法 没有 好 坏 ,每 种 算法 都 有 一 定 的 适用 范围 。 数 据 分 析 师 可 以 根据 数据 以 
及 数据 分 析 需 求 的 特点 ,大 致 选择 几 种 方法 ,然后 通过 实验 比较 确定 合适 的 挖掘 算法 ,并 逐 

按照 数据 挖掘 建 模 标准 (CRISP-DM) 的 流程 ,首先 要 定义 商业 问题 ,理解 业务 背景 ,对 
业务 需求 有 基本 的 了 解 , 然 后 对 相关 的 数据 进行 探索 、 预 处 理 , 分 析 其 特点 ,进而 确定 几 个 可 
能 的 模型 ,并 对 其 进行 验证 评估 ,最 后 选择 分 析 结 果 较 优 的 算法 对 其 进一步 调 优 ,使 结果 尽 
量 解 决 客户 的 问题 ,最 后 将 模型 进行 应 用 部 署 。 

上 述 流程 中 因 实 际 数 据 挖掘 中 的 任务 目标 和 数据 特征 千差万别 , 像 数 据 预 处 理 等 可 忽 
略 , 但 流程 中 任何 一 步 出 现 问题 ,构建 出 来 的 模型 可 能 就 会 毫 无 应 用 价值 。 为 了 说 明 数 据 挖 
掘 算法 的 选择 过 程 , 现 在 以 保险 数据 分 析 为 背景 ,讨论 数据 挖掘 算法 选择 的 一 般 方 法 。 





2.1 业务 理解 


从 商业 的 角度 对 业务 部 门 的 需求 进行 理解 ,包括 商业 背景 分 析 、 理 解 行业 术语 、 业 务 成 
功 标准 \ 企 业 需 求 和 设想 等 ,对 业务 不 了 解 ,在 模型 选择 上 容易 走 弯路 ,而 且 容 易 陷入 细节 ， 
虽然 模型 准确 且 合理 ,但 业务 用 户 觉得 一 文 不 值 。 

保险 行业 具有 “避税 “ 避 债 “可 继承 ”的 特点 ,成 为 高 净值 人 士 的 青睐 之 选 ,特别 是 目前 
国内 的 投资 机 会 较 少 ,股市 、 楼 市 .实体 经 济 等 风险 较 高 的 情况 下 ,保险 业 迎 来 莲 勃 发 展 的 春 
天 ,大 量 保险 企业 纷纷 推出 各 种 各 样 的 人 寿 型 .医疗 型 .投资 理财 型 等 ,竞争 激烈 。 

众所周知 ,由 于 保险 业务 各 项 条 款 细则 较 复杂 , 且 出 险 认定 以 及 赔付 流程 较 长 ,传统 保 
险 采用 代理 人 制度 , 即 被 保险 人 通过 保险 的 代理 销售 人 员 购 买 保险 ,由 代理 人 负责 条 款 解释 
说 明 、 订 单 确认 和 购买 ,以 及 出 险 的 赔付 等 , 受 限于 代理 人 的 能 力 和 业绩 考核 压力 等 ,保险 代 
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理 人 并 不 能 有 效 地 向 客户 推荐 其 需要 的 险种 ,反而 使 客户 对 保险 代理 人 和 保险 产生 抵触 心 
理 ,影响 了 企业 的 品牌 信誉 。 因 此 ,目前 保险 行业 需要 数据 挖掘 技术 支持 ,通过 对 客户 过 往 
的 保险 购买 记录 分 析 客 户 特点 ,并 以 此 为 依据 验证 是 否 需 要 向 其 推荐 其 他 险种 ,对 于 分 析 结 
果 中 某 一 客户 购买 概率 较 低 的 险种 , 则 不 再 向 其 推荐 ,不 仅 减少 了 资源 浪费 ,而 且 提 高 了 投 
放 精 准 性 ,促进 保险 公司 的 业务 发 展 。 

在 商业 中 ,最 关键 的 是 提炼 问题 ,确定 要 解决 什么 问题 ,确定 业务 目标 是 战略 问题 ,而 选 
择 和 确认 模型 是 战术 问题 。 很 多 计算 机 专业 的 人 才 具 有 很 好 的 解决 问题 能 力 ,但 缺少 在 大 
量 数据 集中 寻找 出 问题 ,总 结 商业 模式 等 能 力 ,提出 业务 上 要 解决 的 问题 和 确认 分 析 任 务 目 
标 在 数据 分 析 过 程 中 至 关 重 要 。 目 前 ,大 部 分 业务 目标 主要 是 业务 部 门 提出 需求 ,但 业务 部 
门 在 面 对 海 量 数据 时 ,只 能 提出 一 些 在 其 技术 认 知 范围 内 的 直接 问题 ,会 有 较 大 的 局 限 ,高 
层次 的 数据 分 析 师 不 仅 要 熟知 数据 分 析 技术 ,还 要 了 解 商业 及 其 他 领域 基础 知识 ,能 够 帮助 
客户 从 数据 中 挖掘 出 新 的 商业 模型 或 商业 机 会 。 

本 例 中 ,保险 公司 提供 了 以 家 庭 为 单位 的 历史 保险 投保 记录 ,同时 给 出 了 家 庭 及 其 成 员 
的 各 种 属性 统计 结果 ,总共 86 个 字段 。 保 险 公 司 目前 正 准 备 向 客户 推荐 一 款 房车 险 , 希 户 
通过 对 这 些 保 单 记录 和 属性 信息 进行 挖掘 ,分 析 哪 一 类 客户 倾向 于 购买 此 保险 ,并 和 希望 了 解 
分 析 的 过 程 和 原因 。 以 上 目标 比较 简单 .直接 ,就 是 要 找 出 移动 房车 险 客 户 的 特征 ,然后 依 
据 这 些 特征 在 客户 库 中 有 选择 性 地 进行 营销 活动 ,提高 销售 效率 ,减少 运营 成 本 。 

获取 某 一 类 客户 的 特征 后 ,就 可 以 在 后 续 的 保险 推广 中 应 用 相应 规则 ,减少 大 量 低 效 打 
扰 客 户 的 病毒 式 推广 ,这 个 业务 目标 在 企业 经 营 活动 中 具有 很 强 的 普遍 意义 ,在 其 他 行业 中 
也 有 很 多 类 似 的 情况 。 例 如 ,酿酒 企业 想 了 解 哪 类 客户 更 愿意 购买 新 出 品 的 一 款 红酒 ,或 者 
车 企 想 要 知道 推出 某 款 新 车 的 受 欢迎 程度 等 。 


2.2 数据 分 析 目 标 


提出 业务 目标 后 ,要 将 其 转化 为 数据 分 析 的 目标 ,即将 商业 问题 转化 为 数学 问题 或 数据 
分 析 问 题 ,首先 要 具有 一 定 的 行业 领域 知识 .了解 行 业 的 痛 点 ,同时 对 能 拿 到 的 数据 进行 分 
析 , 通 过 思维 发 散 , 提 出 各 种 各 样 的 算法 模型 ,最 后 将 问题 简化 , 变 成 纯粹 的 数据 挖掘 问题 。 
例如 ,商业 目标 是 希望 提高 转化 率 和 缩短 转换 周期 ,首先 整理 数据 ,获得 客户 信息 等 静态 数 
据 和 客户 操作 记录 的 动态 数据 ,然后 研究 转化 成 功 的 用 户 具有 哪些 特征 ,总 结 规律 ,提出 模 
型 ,从 而 改善 营销 方式 和 优化 购买 流程 ,提高 投资 回报 率 。 

本 例 中 的 数据 集中 存在 大 量 的 客户 属性 数据 和 保险 购买 的 统计 数据 ,需要 提出 某 一 规 
则 或 算法 ,将 客户 的 属性 信息 ,购买 记录 输入 模型 ,由 模型 给 出 一 个 是 否 购买 的 结果 值 。 可 
以 看 作 是 分 类 问题 ,将 客户 分 为 购买 房车 险 和 不 购买 房车 险 两 个 类 别 ; 也 可 以 进行 关联 分 
析 ,将 客户 购买 保险 作为 规则 项 ,还 可 以 对 样本 进行 聚 类 分 析 , 由 于 业务 目标 中 需要 知道 某 
些 规则 ,对 于 数据 分 析 的 方法 而 言 ,样本 数据 特征 各 异 ` 数 据 量 和 样本 中 分 布 情况 也 有 较 大 
差别 ,所 以 无 固定 模式 可 以 直接 应 用 ,在 分 析 过 程 中 先 对 数据 进行 探索 ,然后 粗 选 某 些 分 析 
算法 ,再 逐渐 调 优 解 决 业务 问题 。 
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2.3 数据 探索 


对 数据 进行 理解 以 找 出 问题 的 影响 因素 ,主要 包括 数据 质量 检查 描述 性 数据 统计 、 探 
查 各 变量 的 意义 及 其 相关 关系 、 验 证 其 中 隐藏 的 信息 和 知识 ,对 数据 不 理解 ,选择 数据 时 容 
易 出 现 覆 盖 不 全 ,不 完整 .错误 数据 等 问题 , 建 模 结果 就 会 片面 或 不 稳定 ,甚至 出 错 。 

对 数据 进行 探查 ,以 发 现 其 主要 特点 ,理解 数据 结构 和 各 变量 的 意义 ,对 数据 形成 直观 
认识 ,包括 单 变量 的 分 布 情况 分 析 、 多 变量 关系 分 析 等 ,在 探索 过 程 中 可 以 应 用 可 视 化 技术 
从 中 看 出 某 些 规律 ,如 散 点 图 、 箱 图 、 直 方 图 等 。 

本 例 中 的 数据 为 保险 公司 统计 后 的 结果 数据 ,是 以 家 庭 为 单位 将 客户 属性 、 购 买 保险 的 
种 类 ,金额 等 数据 进行 计算 ,以 家 庭 房产 数 为 例 , 统 计 整 个 家 庭 中 房产 的 总 数量 ,结果 的 取 值 
范围 为 1 一 10, 即 最 少 1 套 ,最 多 10 套 , 而 家 庭 中 宗教 情况 是 按照 家 庭 成 员 信仰 某 一 宗教 的 
人 数 占 总 人 数 的 比例 来 统计 ,在 提供 的 数据 中 ,其 值 范围 为 0 一 9, 分 别 表 示 0、1% ~10%、 
11%~23% .24%~36%、37%~49%、50%~62%、63%~75%、76%~~88%、89% 一 99%、 
100%。 不 同 的 维度 字段 ,其 中 数值 代表 的 意义 不 同 ,需要 根据 维度 的 含义 和 意义 进行 具体 
分 析 ,按照 字段 数值 的 类 型 划分 ,可 将 数值 分 成 5 个 类 别 ,分 别 是 实际 数值 型 LO0、L1、L2、 
L3、L4, 其 详细 说 明 见 表 2. 1。 


表 2.1 变量 取 值 类 型 说 明 























字段 类 型 字段 类 型 说 明 

实际 数值 型 家 庭 房产 数量 (1 一 10) ,平均 房产 数量 (1 一 6) 
L0 客户 子 类 别 标签 , 取 值 为 1 一 41, 代 表 高 收入 .单身 青年 .中 产 阶 级 .丁克 等 
L1 年 龄 范围 , 取 值 为 1 一 6,1 表示 20 一 30 岁 ,…,6 表示 70 一 80 岁 
L2 客户 主 类 别 标签 , 取 值 为 1~~10, 分 别 代表 功 成 享 受 、 退 休 信 教 \ 保 守 家 庭 等 
L3 百分比 ,0~9,0 表示 0,1 表示 1%% 一 10% ,…,9 表示 100% 
L4 金额 (欧元 ) ,0 一 9,0 表示 0,1 表示 1 一 49,2 表示 50 一 99,9 表示 超过 20 000 


总 的 记录 数 为 5822 条 客户 数据 ,每 条 记录 包括 86 个 变量 ,前 43 个 变量 为 人 口 属性 ,是 
基于 邮局 系统 中 的 门牌 号 来 统计 的 每 户 家 庭 中 各 成 员 的 信息 ,然后 进行 合并 计算 将 结果 作 
为 最 后 属性 的 结果 ; 后 面 的 变量 为 产品 购买 属性 , 即 之 前 购买 过 哪些 保险 ; 最 后 第 86 个 字 
段 是 目标 字段 ,表示 是 否 购买 移动 房车 险 , 取 值 为 0 或 1, 即 分 析 客 户 是 否 会 购买 这 一 险种 。 


2.3.1 数据 质量 评估 


样本 数据 的 质量 直接 决定 了 最 终 模 型 的 准确 性 ,高 质量 的 数据 获 盖 了 模型 需要 的 各 种 
情况 , 且 能 够 如 实 反映 除 模型 训练 之 外 的 所 有 数据 ,但 是 这 样 的 样本 数据 往往 可 遇 不 可 求 ， 
在 实际 分 析 中 受 业务 系统 等 限制 ,难以 将 数据 收集 完整 ,总 会 存在 各 种 各 样 的 问题 ,如 出 现 
样本 不 平衡 ,重要 数据 无 法 提供 ,存在 错误 数据 “垃圾 进 .垃圾 出 ”, 以 此 建立 的 模型 必然 无 
法 应 用 ,对 于 样本 数据 质量 的 评估 显得 尤其 重要 。 

在 本 例 中 ,由 于 给 定 的 数据 包括 86 维 数据 ,如 果 对 每 一 变量 进行 单独 分 析 , 耗 时 较 长 ， 
为 了 快速 查看 各 维度 数据 的 基本 特点 ,可 以 应 用 IBM SPSS Modeler 中 的 数据 审核 结果 对 
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数据 进行 评估 。Weka 等 分 析 软 件 中 也 具有 此 类 功能 , 除 此 之 外 ,还 可 以 应 用 直方 图 、 散 点 
图 等 对 某 一 字段 进行 自 定义 分 布 间隔 来 查看 样本 分 布 。 

从 数据 的 准确 性 、 完 整 性 一致 性 等 维度 找 出 样本 存在 问题 ,图 2. 1 是 数据 审核 节点 的 
结果 ,可 以 看 到 各 自 变量 的 类 型 和 数据 分 布 情况 ,以 及 极 值 平 均值 .标准 差 、 偏 度 、 类 别 数 
( 非 连 续 型 变量 ) 有 效 的 记录 数 。 其 中 大 多 数 变 量 旦 现 正 态 分 布 ,部 分 自 变量 为 偏 正 态 分 
布 ,还 有 部 分 变量 分 布 没有 规律 ,比较 散乱 。 


























志文 件 昌 ， 瑟 编 四 训 生 成 G) lx 
字数 一 样本 图 形 测量 最 小 值 。 最 大 值 。 平均 值 ”标准 差 偏 度 了 叭 ~-  _ 有 效 
从 客户 次 类 别 而 名 义 1.000 41.000 -- -| --| 40 5822 
羔 每 房 人 数 | | 妇 连 续 1.000 5.000 2.679 0.790 0.183 -- 5822| 
羔 客 户主 类 别 1 而 名 义 1.000 10.000 一 | -| 10 5822 
全 新 教 比例 遇 是 标记 0.000 9.000 一 -- -| 10 5822 
羔 其 它 宗教 比例 路 I 昌 标记 0.000 -5.000 - - -- 6 5822 
才 无 宗教 比例 烟 8 标记 0.000 9.000 -- -- -- 10 5822 
哗 已 虐 占 比 出 | 是 标记 0.000 -9.000 —— -- -- 10 。 5822 
密 其 它 关系 占 比 Ll 量 标记 0.000 9.000 -- -- -- 10 5822 
全 单身 占 比 ll 是 标记 0.000 9.000 一 | | 10 5822 
全 高 等 教育 lu 昌 标记 0.000 -9.000 -- -- -- 10 5822 
全 低 等 教育 TT 是 标记 0.000 -9.000 -— | -- 10 5822 
密 高 管 [Wh 旺 标记 0.000 9.000 一 -- - 10 5822 
可 











2.1 数据 审核 节点 的 结果 


通常 , 正 态 分 布 的 样本 更 符合 预期 ,说明 其 样本 数据 分 布 较 合理 , 逢 盖 了 大 多 数 的 情况 。 
当然 ,样本 为 偏 正 态 分 布 时 可 以 应 用 对 数 、 倒 数 、 指 数 等 变换 将 其 转换 为 正 态 分 布 ,从 而 改进 
模型 分 类 结果 的 准确 性 。 

在 “质量 ”选项 卡 中 查看 数据 质量 ,如 图 2. 2 所 示 , 可 以 看 到 完整 字段 和 完整 记录 的 比 
例 ,以 及 空 值 .字符 型 空 值 . 离 群 值 . 极 值 的 数量 等 ,可 以 看 到 样本 数据 中 没有 上 述 异 常数 据 ， 
样本 所 有 字段 的 数据 完整 度 均 为 100% 。 

由 于 上 述 工具 与 业务 无 关 , 它 们 并 不 能 检查 业务 数据 存在 的 问题 ,所 以 在 分 析 过 程 中 需 
要 利用 业务 知识 查看 数据 的 合法 性 和 准确 性 ,以 及 是 否 存在 异常 值 , 这 些 工作 需要 从 业 人 员 
认真 查看 数据 的 实际 取 值 ,而 非 仅仅 看 通用 的 质量 指标 ,可 应 用 箱 图 等 图 形 对 有 疑问 的 字段 
数据 进行 详细 探查 ,具有 一 定编 程 或 数据 库 使 用 经 验 的 人 员 可 以 直接 操作 样本 库 查 找 异常 
记录 ,并 按照 实际 需要 决定 是 否 将 其 剔除 出 训练 集 或 对 其 进行 修正 。 
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完整 字段 (入 : 100% 完整 记录 (9): 100% 

















己 _ 离 群 值 极 值 “操作 ”缺失 插 补 方法， 完成 百分比 有 效 记录 _ 空 值 “字符 型 空 值 空白 空白 值 

客户 次 类 别 蝎 名 义 二 -J I 从 不 国定 100 5822 0 0 0 0 
每 房 人 数 从 连续 国定 100 5822 0 0 0 0 
客户 主 类 别 费 名 义 国定 100 5822 0 0 0 0 
/名 新教 比例 标记 国定 100 S5822 0 0 0 0 
其 它 宗教 比例 标记 国定 100 S822 0 0 0 0 

无 宗教 比例 标记 固定 100 5822 0 0 0 0 

已 婚 占 比 标记 固定 100 5822 0 0 0 0 

其 它 关 系 占 比 标记 国定 100 5822 0 0 0 0 
单身 占 比 标记 固定 100 5822 0 0 0 0 

高 等 教育 标记 国定 100 S5822 0 0 0 0 

低 等 教育 标记 国定 100 5822 0 0 0 0 

高 管 标记 国定 100 5822 0 0 0 0 
多 农场 主 标记 国定 100 5822, 0 0 0 0 
中 层 管理 者 标记 国定 100 5822 0 0 0 0 
多 技术 工人 标记 国定 100 5822 0 0 0 0 
非 熟 练 劳工 标记 固定 100 5822 0 0 0 0 

| 御 社 会 阶层 标记 国定 100 5822 0 0 0 0 
社会 阶层 C 标记 国定 100 5822 0 0 0 0 
社会 阶层 D 标记 固定 100 5822 0 0 0 0 

子 标记 固定 100 5822 0 0 0 0 

房 主 标记 国定 100 5822 0 0 0 0 

二 辆 车 昌 标记 国定 100 5822 0 0 0 0 
车 曙 标记 国定 100 5822 0 0 0 0 
公共 社保 标记 固定 100 5822 0 0 0 0 

人 社保 标记 固定 100 5822 0 0 0 0 
收入 低 于 30 标记 固定 100 5822 0 0 0 0 
收入 45-75 标记 固定 100 5822 0 0 0 0 
收入 75-122 标记 固定 100 5822 0 0 0 0 
生平 均 收入 标记 固定 100 5822 0 0 0 0 
购买 力 水 平 标记 国定 100 5822 0 0 0 0 
个 人 第 三 方 保 | 标记 固定 100 5822 0 0 0 0 
投保 车 险 记 国定 100 5822 0 0 0 0 
投保 火险 标记 固定 100 5822 0 0 0 0 

第 三 方 私 人 险 数量 员 标记 固定 100 5822 0 0 0 0 
投保 车 险 数量 未 记 国定 100 5822 0 0 0 0 

投保 火险 数量 标记 固定 100 5822 0 0 0 0 

| 必 移动 房车 险 数 量 标记 -十 - 固定 100 5822 0 0 0 0 
向 分 名 义 一 -- 人 不 国定 100 5822 0 0 0 0 











图 2.2 数据 审核 节点 中 数据 质量 结果 


2.3.2 探索 数据 统计 特性 


描述 性 统计 分 析 是 用 统计 学 的 指标 来 描述 数据 特征 的 一 种 方法 ,其 理论 基础 是 数理 统 
计 学 知识 ,主要 包括 数据 的 集中 趋势 .离散 趋势 .数据 分 布 等 特征 , 它 是 数据 分 析 的 第 一 步 ， 
也 是 进一步 分 析 的 基础 。 描 述 集中 趋势 的 指标 有 均值 、 众 数 、 中 位 数 等 ,描述 离散 趋势 的 指 
标 有 极 差 、 方 差 , 标 准 差 、 四 分 位 等 ,描述 数据 分 布 情况 的 指标 有 偏 度 、 峰 度 等 ,前 者 是 对 数据 
分 布 对 称 性 的 描述 ,后 者 是 对 数据 分 布 平 峰 或 尖峰 程度 的 描述 ,主要 用 于 查看 数据 是 否 符 合 
正 态 分 布 。 

经 过 描述 性 统计 分 析 之 后 ,就 可 以 有 针对 性 地 分 析 其 中 部 分 字段 ,分 析 样本 中 包含 的 某 
些 特点 ,一 方面 可 以 验证 数据 的 质量 ,此 外 也 可 以 对 样本 数据 有 更 加 直观 的 感觉 ,同时 作为 
模型 结果 的 验证 也 非常 有 用 。 

目前 很 多 分 析 软 件 或 模块 都 有 统计 分 析 功 能 ,例如 在 SPSS Modeler 中 可 以 从 “节点 选 
项 板 ” 中 的 “图 形 ” 选 项 卡 中 选择 合适 的 图 形 节 点 对 数据 进行 统计 分 析 , 而 在 Python 中 可 以 
先 使 用 NumPy 和 SciPy 进行 统计 分 析 , 然 后 用 Matplotlib 工具 库 来 可 视 化 显示 结果 。 

本 例 中 是 为 了 查找 投保 移动 房车 险 的 家 庭 特征 ,由 于 移动 房车 险 的 类 别 为 投 ( 值 为 1) 
或 不 投 ( 值 为 0) 两 种 情况 ,所 以 可 应 用 SPSS Modeler 中 的 箱 图 来 查看 不 同 的 变量 对 因 变 量 
的 区 分 度 , 结 果 如 图 2.3 所 示 。 
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经 过 比较 ,发 现 购买 房车 险 的 家 庭 相 较 未 购买 此 保险 的 家 庭 具 有 以 下 特征 : 

(1) 购买 力 水 平 较 高 ,平均 收入 较 高 。 

(2) 平均 教育 水 平 较 高 。 

(3) 投保 火险 的 比例 略 高 。 

(4) 家 庭 成 员 中 已 婚 的 比例 较 高 。 

(5) 私人 保险 投保 比例 较 高 。 

(6) 公共 社保 的 投保 比例 较 低 。 

(7) 农场 主 这 类 人 和 群 极 少 投 移动 房车 险 。 

(8) 高 管 层次 的 人 群 比例 较 高 。 

从 这 些 特点 中 可 以 得 出 初步 的 结论 ,投保 移动 房车 险 的 家 庭 其 经 济 实力 明显 较 强 ,教育 
程度 较 高 ,社会 地 位 较 高 ,保险 意识 和 理念 较 强 ,基本 上 为 中 产 阶级 及 以 上 人 群 ,所 以 这 个 险 
种 的 目标 人 群 可 以 初步 进行 定位 。 由 于 此 结论 相对 模糊 ,所 以 还 需要 应 用 分 析 模 型 进行 详 
细 分 析 ,对 结果 进行 量化 ,形成 可 操作 和 可 应 用 部 署 的 模型 算法 。 


2.3.3 数据 降 维 


降 维 是 一 种 常见 的 数据 预 处 理 手段 ,一 般 情 况 下 ,样本 的 字段 数 较 多 ,特别 是 在 大 型 系 
统 中 ,由 于 各 不 同 应 用 方向 的 信息 系统 记录 的 数据 种 类 很 多 ,经 过 综合 之 后 就 容易 产生 维度 
灾难 ,使 得 在 数据 分 析 过 程 中 模型 训练 时 间 超 长 , 且 宛 余 字 段 也 影响 模型 的 准确 性 , 易 产 生 
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误差 ,所 以 ,在 大 多 数 情况 下 要 对 字段 进行 降 维 处 理 ,将 对 模型 结果 影响 不 大 的 字段 剔除 ,或 
者 将 其 进行 变换 后 再 输入 至 模型 中 。 

在 数据 分 析 中 可 以 使 用 分 析 软 件 附 带 的 字段 重要 性 评估 模块 来 实现 ,也 可 以 通过 逻辑 
回归 等 模型 进行 评估 ,由 模型 给 出 显著 性 变量 ,如 果 变 量 对 模型 的 贡献 较 少 ,可 以 考虑 将 其 
剔除 。 

本 例 中 数据 维 数 较 多 ,需要 进行 降 维 处 理 , 在 SPSS Modeler 中 选择 “特征 选择 ”节点 ， 
如 图 2.4 所 示 ,目标 设置 为 “移动 房车 险 数量 ", 即 家 庭 中 投 此 保险 的 数量 ,输入 变量 选择 其 
他 所 有 字段 ,并 使 用 分 区 字段 ,其 他 选项 采用 默认 设置 。 
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输入 (D; 





昌 投保 自行 车 险 数量 
曲 投保 财产 险 数量 
号 投保 社会 安全 险 数量 


(A): 




















MWe Pf) 了 R 汉 | LA | mE | 
国 国 |sx 
在 模式 中 选择 回 所 有 排列 的 字段 
因 | 重要 
图 边际 分 界 值 | ”0.95 冉 
百 回 不 重要 分 界 值 | 。 0.9 图 
口 字段 总 数 10 轿 
口 重要 性 大 于 0.95 国 
通过 分 类 目标 ， 类 别 预测 变量 的 p 值 (重要 性 ) 的 基础 为: 
@ pearson 口 似 名 比 名 交 莱 姆 系数 Olambda 





2.4 数据 特征 选择 


运行 模型 后 的 结果 如 图 2. 5 所 示 ,结果 中 按 重要 性 依次 列 出 36 个 重要 变量 ,此 外 一 个 
边际 变量 ,其 他 为 不 重要 变量 ,这 些 变量 并 非 不 起 任何 作用 ,而 是 对 结果 的 影响 较 小 ,在 后 续 
模型 选择 过 程 中 也 可 以 将 其 作为 输入 变量 进行 分 析 。 

不 同 的 业务 需求 和 分 析 目标 中 ,字段 重要 性 等 级 的 分 界 值 不 同 , 由 于 当前 场景 中 字段 较 
多 ,边际 分 界 值 选 为 0. 95 比较 合适 ,而 自 变量 较 少 时 可 以 适当 降低 分 界 值 ,或 依据 实际 业务 
场景 进行 设置 。 
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> 0.95 <= 0.95 器 <0.9 








36 逢 选 的 字段 
| 字段 测量 原因 














目 投保 自 ,.， 昌 标记 单个 类 别 过 大 
[al 投保 自 .。 着 标记 单个 类 别 过 大 
日 投保 拖 .， 别 标记 单个 类 别 过 大 
加 投保 拖 ..， 曙 标记 单个 类 别 过 大 
[a 投保 寿 ..， 曙 标记 单个 类 别 过 大 
目 投保 寿险 曙 标记 单个 类 别 过 大 


图 2.5 特征 选择 结果 


2.4 模型 选择 过 程 


在 模型 选择 过 程 中 ,首先 按照 任务 目标 的 要 求 和 数据 特点 提出 多 个 可 能 的 模型 ,然后 对 
这 些 模型 进行 详细 分 析 ,并 选择 具有 较 好 区 分 效果 的 算法 模型 进行 参数 优化 。 自 变量 和 因 
变量 中 的 字段 值 大 部 分 为 分 类 类 型 ,这 种 特点 决定 了 比较 适合 应 用 分 类 算法 ,而 分 类 算法 种 
类 较 多 ,如 果 每 种 算法 都 进行 验证 ,工作 量 较 大 ,一般 先 采用 自动 分 类 技术 筛选 几 类 算法 , 然 
后 再 逐步 确认 。 

模型 选择 要 符合 业务 应 用 场景 ,很 多 人 认为 模型 只 要 做 到 可 预测 就 是 一 个 好 的 模型 ,不 
符合 业务 需求 ,再 好 的 模型 也 没有 意义 。 在 实践 中 ,如 果 在 业务 上 要 求 模型 具有 较 强 的 可 解 
释 性 ,就 不 适合 应 用 类 似 神经 网 络 等 黑箱 模型 ,最 好 采用 像 逮 辑 回归 , 岭 回 归 决策 树 等 可 量 
化 解释 的 模型 ,结果 可 量化 且 可 验证 。 

模型 的 预测 能 力 是 指 其 泛 化 能 力 , 在 新 的 独立 测试 样本 上 的 预测 能 力 , 多 数 情况 下 , 随 
着 模型 复杂 度 的 增加 ,其 在 训练 集 上 的 泛 化 能 力 增强 ,但 在 测试 集 上 测试 误差 变 大 ,甚至 会 
出 现 过 拟 合 现象 ,而 模型 选择 阶段 的 主要 目标 是 获得 泛 化 能 力 最 好 ,同时 也 是 最 稳定 的 模 
型 。 预 测 能 力 的 评估 除了 从 统计 的 角度 验证 外 ,还 要 从 业务 的 角度 进行 验证 ,确认 其 在 商业 
问题 上 的 支撑 力度 。 

在 模型 选择 和 评价 过 程 中 ,一 般 将 数据 分 为 训练 集 、 验 证 集 、 测 试 集 3 个 不 相交 的 集合 ， 
也 可 以 将 训练 集 和 验证 集合 为 训练 集 。 总 之 ,训练 集 和 验证 集 是 为 了 做 模型 选择 ,测试 集 是 
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做 模型 评价 ,其 中 测试 集 是 独立 的 。 当 然 , 如 果 反 复 使 用 同一 个 测试 集 进行 模型 验证 ,也 容 
易 将 其 转化 为 验证 集 , 产 生 过 拟 合 , 所 以 在 实践 中 可 将 测试 集 分 为 多 个 独立 的 集合 。 

模型 选择 的 核心 思想 是 从 众多 可 选 模型 中 选择 最 佳 的 模型 。 例 如 ,使 用 重复 抽样 对 训 
练 集 进行 划分 ,构建 多 个 训练 集 和 验证 集 ,然后 分 别 计算 其 近似 测试 误差 ,代表 方法 为 交叉 
验证 (Cross Validation,CV) 和 自助 法 (Bootstrap) ,这 类 方法 需要 较 多 的 计算 时 间 。 另 外 ， 
也 可 以 基于 似 然 来 建立 单一 训练 集 误差 和 测试 误差 之 间 的 关系 ,由 于 更 加 直接 ,所 以 计算 速 
度 更 快 ,但 结果 可 能 不 及 理论 预期 ,代表 方法 有 AIC、BIC 等 。 随 着 目前 计算 机 处 理 能 力 的 
大 幅 提 升 ,还 是 推荐 使 用 简单 可 靠 的 CV 法 或 GCV 法 来 做 模型 选择 。 

图 2.6 是 移动 房车 险 投保 情况 分 析 流 程 ,其 中 包括 3 部 分 : 数据 预 处 理 、 模 型 筛选 与 选 
择 、 模 型 优化 。 数 据 预 处 理 在 前 面 已 经 分 析 过 ,这 里 主要 讨论 模型 的 选择 ,在 数据 挖掘 过 程 
中 ,很 难 一 次 性 确定 哪个 模型 效果 较 好 ,所 以 模型 的 选择 变 得 尤为 关键 。 





全- 一 … 合 
本 移动 房 0 车 险 数量 
四 一 一 全 -会 = 坊 一 国 


data.xlsx 类 型 a 分 区 移动 房 oe 仿 数 量 分 析 
车 险 数 量 


,人 鲁 最 人 全 
(车 移动 房车 © 久 


/类 型 se 全 移动 房车 人 会 数量 


房车 险 数 从 
[移动 房车 险 数量 aa 移动 房车 险 会、 
平均 收入 ] 
图 “、、 








移动 房 会 ， 
国 -一 仿 - 一 乞 
分 析 移动 房车 险 数量 ® xlsx 


图 2.6 移动 房车 险 投保 情况 分 析 流程 


如 果 软 件 具有 自动 算法 选择 功能 ,可 以 用 它 来 初 选 几 种 算法 ,然后 查看 各 模型 的 结果 ， 
并 对 其 进行 评估 。 一 般 情况 下 ,自动 算法 并 不 能 完全 代替 人 工 选择 , 需 人 工 干预 使 模型 可 选 
范围 逐渐 缩小 ,最 后 选择 一 种 或 少数 几 种 算法 进行 优化 和 比较 。 此 外 ,如 果 数 据 分 析 工 具 未 
提供 自动 算法 选择 功能 ,可 以 根据 数据 特点 以 及 分 析 问题 初步 选择 几 个 模型 进行 测试 ,一 方 
面 可 对 数据 特征 进一步 加 深 理解 , 男 一 方面 也 可 作为 “试金石 ”逐步 扩展 应 用 其 他 类 别 的 算法 。 
总 之 ,算法 的 选择 过 程 是 一 个 不 断 地 尝试 .失败 、 再 尝试 的 过 程 ,最 终 发 现 数据 中 的 规律 。 


2.4.1 算法 初 选 


很 多 数据 分 析 软 件 中 都 具有 自动 算法 选择 的 模块 ,用 于 帮助 用 户 以 默认 模型 参数 值 来 
运行 所 有 模型 ,然后 按照 某 一 评估 准则 筛选 较 好 的 模型 ,减少 人 工 操作 。 在 理想 情况 下 ,可 
快速 定位 合适 的 模型 。 
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本 例 应 用 IBM SPSS Modeler 中 的 自动 分 类 模型 对 算法 进行 粗略 选择 ,如 图 2.7 所 示 ， 
对 数据 集 进行 初步 分 析 ,取得 效果 较 好 的 5 个 分 类 模型 ,然后 再 基于 分 类 模型 独立 分 析 , 这 
样 可 以 极 大 减少 模型 匹配 和 人 工 选择 的 时 间 , 从 而 快速 发 现 最 佳 的 几 个 模型 ,有 的 放 矢 地 进 
一 步 深 入 分 析 。 


























(ae jiu mb |] [SR RR) 
@ 巴巴 口 
要 执行 的 模型 估计 数 ; 15 

一 一 
| 是 否 使 用 ? ER | 模型 参数 | 模型 编号 

民 的 c5 且 省 1 

图 LA _ Logistic 回归 缺 省 1 

加 YY wn 二 省 1 

加 nm 中 省 1 

属 国 ”9 训 省 1 

加 es KNN 算法 后 省 1 

网 取 sw 指定 1 

民 时 Random Trees 。 省 1 

图 A SVM 指定 2 

略 机 A5 议 省 1 

略 人 盘 cup 指定 1 

国 A aues 缺 省 1 

加 A CART 缺 省 1 

属 类 神经 网 络 训 省 1 
回 将 构建 单个 可 型 所 花费 的 最 大 时 间 限 为 15 看 9 
ET 本 
Ce jp ma | 国人 


2.7 自动 分 类 模型 属性 配置 


在 “模型 ?选项 卡 中 设置 模型 数量 为 5 个 ,在 “专家 ?选项 卡 中 选中 所 有 的 模型 类 型 ,可 对 
模型 参数 进行 修改 ,本 例 中 使 用 默认 的 参数 值 。 
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运行 后 得 到 的 自动 分 类 模型 筛选 结果 如 图 2. 8 所 示 , 其 中 CHAID 树 `QUEST、 
CART、 类 神经 网 络 .逻辑 回归 总 体 精 确 性 较 高 。 在 模型 列表 中 双击 某 一 行 的 图 形 可 查看 因 
变量 的 分 布 情况 ,双击 模型 列表 中 的 某 一 行 可 以 查看 模型 的 详情 。 


8 Ha 
这 szee osaa yamm Eigse 国 回 口 


Ft(): Rs err orr [EE) Casi wn sd) 











构建 时 间 最大。 | 总 大 利润 | 了 敬 | 和 线 下 方 
a5- | lam el 人 | 面 训 
加 坊 ol 1! -32.436 0 1856 94303 12 0.699 


加 [| 党 me 1 -48.734 0 1000 ”94303 36 05 


加 [| 侈 or 1 -48.734 0 1000 ”94303 36 05 
加 [] 浴 spsnmsl 1 -45.0 0 1692 9404 36 0635 


| 过 oemal -25.0 0 1487 92.813 36 0.618 
ME | A) - 晶 B) 
图 2.8 自动 分 类 模型 筛选 结果 








双击 QUEST 和 CART 模型 时 ,发 现 其 采用 了 返回 固定 值 的 方式 来 提高 精确 率 ,即将 
所 有 分 类 判断 均 返回 0 值 (不 投保 移动 房车 险 ) 作 为 结果 ,在 不 投保 的 样本 比例 较 高 时 ,这 样 
操作 当然 也 可 以 达到 较 高 的 精确 率 , 但 是 没有 实际 的 应 用 价值 .所 以 在 后 续 分 析 中 将 上 述 两 
种 模型 滤 除 。 

在 “图 形 ” 选 项 卡 中 可 看 出 移动 房车 险 投保 比例 较 少 ,将 鼠标 悬浮 在 柱状 图 看 到 只 有 
348 条 , 占 总 数 的 5.9% ,如 图 2.9 所 示 ,其 模型 的 分 布 情况 与 样本 中 目标 变量 的 分 布 一 致 ， 
说 明 模 型 本 身 没 有 实质 的 预测 , 即 平均 精确 率 全 部 来 源 于 未 投保 样本 的 贡献 (全 部 预测 为 未 
投保 即 可 实现 )。 从 预测 变量 的 重要 性 中 可 以 看 出 社会 阶层 .工作 熟练 程度 .工作 类 别 .教育 
程度 .是否 单身 等 重要 性 较 高 ,但 是 这 些 变量 之 间 的 差异 化 并 不 明显 。 


Oe. ct 区 动 房车 隐 熟 执 
谅 Bx OFmRG Amv mpla) 加 下 口 


ET 
于 “人 "这 大 人 中 的 所 有 村 有 有， 下 -大全 世上 上 古训 的 机 直 人 迪克 
7 国 & a EET 


5XF- 且 二 革除 量 
oo 
































2.9 ”自动 分 类 模型 预测 变量 重要 性 
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为 了 进一步 验证 自动 分 类 器 初 选 出 的 各 个 模型 的 效果 ,下 面 详细 评估 各 模型 的 结果 ,并 
比较 数据 降 维 的 效果 。 其 中 ,为 了 比较 降 维 对 模型 结果 的 影响 ,相应 地 选择 CHAID 树 模 
型 ,比较 降 维 前 后 的 模型 结果 。 同 时 ,鉴于 在 逻辑 回归 模型 中 ,不 显著 变量 易 对 结果 产生 一 
定 的 影响 ,将 逻辑 回归 的 输入 变量 使 用 降 维 后 的 变量 。 


2.4.2 算法 验证 


依据 模型 的 结果 不 仅 可 以 看 到 各 项 指标 是 否 达 到 要 求 ,还 要 将 结果 与 实际 业务 领域 知 
识 进行 结合 分 析 , 以 确认 模型 的 应 用 价值 ,否则 只 注重 单一 的 某 几 项 结果 指标 ,很 可 能 出 现 
过 拟 合 的 问题 。 

本 例 通 过 自动 分 类 模型 得 出 CHAID 树 的 效果 较 好 ,所 以 单独 分 析 CHAID 树 模型 ,其 
属性 配置 如 图 2. 10 所 示 ,首先 选择 降 维 后 的 36 个 重要 自 变量 作为 输入 ,在 “构建 选项 "中 使 
用 默认 选项 , 即 构建 新 模型 且 以 构建 单个 树 为 目标 ,然后 以 降 维 前 的 85 个 变量 作为 自 变量 
输入 ,比较 降 维 前 后 对 预测 结果 准确 性 的 影响 。 


| 回回 口 
全 | 





Eu 



































时 移动 房车 险 数量 
预 到 变量 【输入 ) (P)": 
A 
时 收 和 75-122 
平均 收入 
昌 风 严 力 水 于 
?个 人 w= 
生 投保 车 险 
时 投保 火险 
多 第 三 方 私人 队 数 重 
条 投保 车 险 数量 
时 投保 火险 数 攻 
由 分 析 权 夯 (W)- 
中 时 下 下 4 一 YR] 
i SA 
选择 项 目 (5); 
目标 (O) 您 希望 做 什么 ? 
基本 (8) 加 构建 新 模型 8) 〇 继 绩 训 练 现 有 模型 (C) 
中 目 规 则 (5) | 。 您 的 主要 目标 是 什么 ? 
成 本 (C) 加 构建 单个 树 (D) 
整体 (E) 和 人 本 
高 级 模式 : 会 生 成 模型 (N) 〇 启动 交互 会 二 
轿 全 用 风 指 人 m 指令 (E}.- 
日 增强 模型 准确 度 (boosting) 
日 增强 模型 稳定 性 (bagging) 
O 为 大 型 数据 集 创建 模型 (需要 Server) 
“描述 
创建 单个 标准 模型 解释 字段 间 的 关系 。 与 增强 型 、 组 装 型 或 大 型 数据 集束 
体 模型 相 比 ， 标 准 模型 更 易于 解释 且 可 快速 评分 


图 2.10 CHAID 树 模型 参数 设置 
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运行 模型 后 得 到 的 结果 如 图 2. 11 所 示 ,展开 所 有 层次 可 以 看 到 模型 中 定义 的 分 支 全 部 
为 指向 0, 即 为 投保 移动 房车 险 , 说 明 模 型 并 没有 明确 在 何 种 情况 下 某 一 家 庭 会 投保 移动 房 
车 险 , 这 种 情况 下 模型 的 应 用 效果 将 不 理想 。 


导 投保 车 险 = 4 or 投保 车 险 15 MISSING [ 模式 : 0 ] 
自 收入 45-75 = 5 or 收入 45-75 = 7 [模式 : 0 ] 
| 非 出 练 劳工 = 2【 模式: 0] 只 0.0 





非 熟 练 劳工 IS MISSING [ 模式 : 0 ] 只 0.0 
自 收入 45-75 IS MISSING [ 模式 : 0 ] 
县 一 辆 车 = 0 or 一 辆 车 Is MISSING [ 模式 : 0 ] 
一 其 他 宗教 比例 = 1 or 其 他 宗教 比例 = 5 [ 模式 : 0] 只 0.0 
自 其 他 宗教 比例 IS MISSING [ 模式 : 0 ] 
”企业 家 = 0 or 企业 家 = 4 [ 模式 : 0 ] 只 0.0 
企业 家 I5 MISSING [ 模式 : 0] 吃 0.0 
一 一 辆 车 = 外 01] 叶 00 
自 . 投保 车 险 = 6 [ 模式 : 
身 ET 1 or 守业 2 [模式 : 0] 
| ~ 第 三 方 私人 险 数量 = 0 【 模式 : 0] 心 0.0 
! 第 三 方 私人 险 数量 = 1 [ 模式 : 0 ] 只 0.0 
昌 客户 主 类 别 = 3 or 客户 主 类 别 = 8 or 客户 主 类 别 = 9 [ 模式 : 0 ] 
~ 第 三 方 私人 险 数量 = 0 or 第 三 方 私人 险 数量 I5 MISSING [ 模式 : 0 ] 只 0.0 
第 三 方 私人 险 数量 = 1 [ 模式 : 0 ] 只 0.0 
几 客户 主 类 别 = 4 or 客户 主 类 别 = 5 or 客户 主 类 别 = 6 or 客户 主 类 别 = 7 or 客户 主 类 别 = 10 [ 模式 : 0 ] 
购买 力 水 平 = 3 [ 模式 : 0 ] 只 0.0 
购买 力 水 平 5 MISSING [ 模式 : 0 ]】 0.0 











图 2.11 CHAID 树 模型 结果 


运行 模型 后 使 用 测试 数据 作为 模型 的 验证 数据 ,用 它 来 蔡 换 模型 训练 过 程 中 的 样本 输 
入 ,即将 eval. xlsx 输入 连接 到 生成 的 模型 中 ,并 在 模型 后 连接 “分 析 ” 节 点 ,选中 “重合 矩阵 ” 
“绩效 评估 “评估 度量 “置信 度 图 ”作为 输出 指标 ,如 图 2. 12 所 示 。 


eo. 分 析 








EE 分 析 SR- 移 动 房车 险 数量 


ECT 
重合 矩阵 (用 于 字符 型 目标 字段) 
绩效 评估 
评估 度量 (AUC & Cini， 仅 限于 二 元 分 类 器 ) 
置信 度 图 (如 果 可 用 ) 
阔 值 用 于 : 0 图 % 正 确 
改善 准确 性 : 2.0 轩 折合 
使 用 以 下 内 容 查找 目标 /预测 变量 字段 : 
转 模 型 输出 字段 元 数据 
日 字段 名 格式 (例如 ，'$<x>-<target field>? 
按 分 区 分 隔 
用 户 定义 的 分 析 “二 义 且 后 到 时 标准 志 
按 字段 分 解 分 析 : 





四 
me lp 5 ai | RA Ea) | 
2.12 CHAID 树 模型 分 析 参 数 配 置 


运行 分 析 节 点 得 到 分 类 评价 指标 的 结果 ,如 图 2. 13 所 示 , 可 以 看 到 其 正确 率 达 到 
94.05%,AUC 和 Gini 系数 这 两 个 指标 的 结果 也 较 好 。 此 外 ,使 用 36 维 自 变量 的 指标 与 之 








42 











数据 挖掘 实用 案例 分 析 














相 比 仅仅 在 2.0 以 上 的 折 双 准确 性 上 略 有 差别 .为 0.981, 说 明 变量 降 维 后 对 CHAID 模型 
的 准确 性 结果 影响 不 大 , 降 维 后 的 结果 具有 一 定 的 代表 性 。 





号 输出 字段 移动 房车 险 数量 的 结果 
所 单独 模型 


所 比 较 $R- 移 动 房车 险 数量 
正确 3,762 
错误 238 
总 计 4,000 
SR 各 芭 忆 了 数量 的 生息 (人 和 未 实际 全) 





身 绩效 评估 
号 $RC- 移 动 房车 险 数量 的 置信 度 值 报告 
范围 





0.733 - 0.991| 
0.945| 


0. 
0.991 (观测 值 的 0%) 
0.733 (观测 值 的 0%) 


0.0| 
0.983 (观测 信 的 97.59%) 











94.05% 以 上 的 准确 性 
2.0 以 上 的 折 允 正确 性 





自 评估 度量 
be AUC Cinil 
SR- 移 动 房车 险 数量 0.683 0.366| 




















图 2.13 CHAID 树 模型 分 类 效果 评估 


如 果 仅 看 模型 的 准确 率 指标 ,模型 的 分 类 效果 很 好 ,但 是 我 们 发 现 CHAID 树 与 
QUEST、CART 的 问题 类 似 ,在 分 类 过 程 中 主要 是 返回 0 值 样本 的 值 ,其 分 类 的 准确 性 与 
样本 中 因 变 量 为 0 值 的 比例 是 一 致 的 ,观察 模型 的 评估 结果 可 以 发 现 移动 房车 险 数量 的 符 
合 和 矩阵 中 并 没有 出 现 值 为 1 时 的 预测 值 .说 明 在 预测 过 程 中 模型 对 于 投保 这 一 险种 的 预测 
结果 全 部 为 0, 即 不 投保 移动 房车 险 , 明 显 不 符合 实际 业务 ,所 以 无 论 是 否 使 用 降 维 操作 ,这 
个 模型 也 不 具有 应 用 价值 。 

片面 看 重 模型 中 的 准确 性 等 直接 指标 往往 易 被 其 欺骗 ,即使 通过 了 样本 的 测试 ,在 实际 

应 用 中 也 难以 有 效应 用 ,这 个 家 庭 会 投保 移动 房车 险 吗 ? 系统 并 不 需要 任何 运算 ,只 要 回答 
“不 会 ”就 会 达到 94% 的 准确 率 ,但 是 这 样 的 模型 明显 没有 实际 意义 。 
将 自动 算法 选择 的 CHAID 模型 淘汰 后 ,继续 分 析 验 证 逻辑 回归 模型 ,对 降 维 后 的 样本 
应 用 逻辑 回归 模型 ,移动 房车 险 投 保 作 为 因 变量 ,由 于 逻辑 回归 模型 中 不 显著 , 自 变量 对 模 
型 的 准确 率 影 响 较 小 ,将 其 排除 ,使 用 降 维 后 的 36 维 字段 作为 自 变量 。 与 CHAID 模型 类 
似 ,逻辑 回归 模型 的 整体 准确 率 较 高 ,但 是 召回 率 极 低 , 模 型 出 现 了 过 拟 合 的 情况 ,可 以 预见 
其 在 实际 应 用 中 效果 不 好 ,所 以 逻辑 回归 模型 也 无 法 直接 在 保险 公司 中 实际 使 用 。 

下 面 接着 分 析 验 证 类 神经 网 络 算法 的 结果 ,模型 准确 率 为 93.05% ,具有 较 好 的 分 类 效 
果 , 但 是 与 逻辑 回归 类 似 ,其 AUC 和 Gini 系数 指标 表现 一 般 。 其 中 召回 率 为 0, 说 明 直 接 
应 用 模型 时 基本 上 没有 实际 意义 。 

综 上 ,上 述 几 种 模型 均 未 通过 验证 ,比较 几 种 模型 未 通过 验证 的 原因 ,发 现在 分 析 过 程 
中 样本 集 存在 严重 的 不 平衡 问题 ,导致 算法 “投机 取 巧 ”几乎 不 做 分 析 , 直 接 返 回 多 样本 记录 
对 应 的 结果 值 ,使 各 种 分 类 算法 在 实际 应 用 中 均 失 效 , 虽 然 具 有 较 高 的 整体 准确 性 , 却 无 法 
应 用 于 实际 企业 运营 中 ,这 种 情况 在 现实 生活 中 非常 多 ,如 疾病 预测 ,流失 客户 预警 .欺诈 检 
测 .垃圾 电话 或 邮件 检测 等 ,处理 不 平衡 数据 集 是 目前 数据 分 析 领 域 比较 热门 的 问题 之 一 ， 
对 其 进行 评价 的 指标 主要 是 以 ROC 曲线 来 进行 评价 ,而 ROC 曲线 没有 给 出 具体 的 参数 
值 ,所 以 采用 ROC 曲线 下 方 的 面积 来 评价 , 即 采用 AUC 指标 。 
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2.4.3 算法 优化 


不 同 模型 选择 和 验证 为 常规 选择 方法 ,大 多 数 业务 均 可 进行 上 述 操作 ,但 是 数据 集 的 特 
点 不 一 , 且 分 析 任 务 的 准确 性 要 求 具有 个 性 化 ,需要 对 模型 进一步 优化 ,以 达到 实际 应 用 的 
需要 。 模 型 优化 的 方法 主要 从 业务 和 建 模 技 术 等 思路 上 进行 优化 ,前 者 要 对 业务 和 数据 特 
征 有 深入 的 理解 ,后 者 则 主要 靠 的 是 挖掘 技巧 。 

从 前 面 的 分 析 中 可 以 看 出 ,上 述 算法 均 不 能 直接 应 用 于 实际 的 业务 中 ,需要 对 算法 选择 
过 程 进 行 优化 。 由 于 样本 存在 不 平衡 ,所 以 并 非 优化 算法 的 准确 率 , 而 是 AUC 这 一 指标 ， 
也 可 应 用 召回 率 对 模型 结果 进行 比较 。 

对 分 析 流 程 重新 优化 后 的 结果 如 图 2. 14 所 示 , 对 逻辑 回归 和 CHAID 进行 了 模型 参数 
改进 。 经 过 分 析 ,发 现 数据 降 维 使 模型 降低 了 准确 性 ,所 以 在 新 的 流程 中 不 再 使 用 “特征 选 
择 ”, 直 接 将 分 区 数据 应 用 到 模型 中 。 由 于 SPSS Modeler 中 的 “平衡 "节点 每 次 运行 都 会 随 
机 产生 新 的 样本 记录 ,结果 并 不 固定 ,容易 对 模型 结果 产生 干扰 ,所 以 平衡 后 的 样本 集 导 出 
到 Excel 文件 ,然后 再 从 Excel 中 读 取 出 来 ,只 要 运行 一 次 ,就 生成 一 个 平衡 后 的 数据 源 , 此 
数据 源 (balance. xlsx) 作 为 新 流程 的 输入 ,样本 数据 不 再 变化 。 


样本 平衡 后 数据 流程 5 


1 


移动 房车 险 数量 。 移动 房车 险 数 量 


86 字 自 | 会 5 4 Ey 


图 @ (人 @ E> @— A 分 析 


dataxlsx 下 平衡 Excel balance xlsx 类 型 分 区 移动 房车 险 数量 
@ ) 今 一 国 


类 型 一 入 仪 全 合 移动 房车 险 数 最。 分析 


[移动 房车 险 数量 Bagging 增 强 稳定 性 移动 房车 险 数量 移动 房车 险 数 量 


| 投保 自行 车 险 数量 ] ' 
外 ;1 克 一 国 
动 房车 险 数量 平均 收入 ] i 1 EA 
和 国 - 一 一 一 态 下 动 房车 险 数 七 
分 析 ， | 移动 房车 险 数量 ! 


一 殉 - 


分 析 ”Bagging 增 强 稳定 性 evalxlsx 


图 2.14 平衡 节点 参数 配置 











2.4.4 平衡 数据 集 


现实 中 目标 变量 的 样本 分 布 经 常 出 现 已 经 失真 的 情况 ,至 少 有 一 个 类 别 的 样本 数量 占 
比 小 于 20% ,实际 上 很 多 类 别 的 占 比 甚至 低 于 5% ,如 信用 卡 诈骗 ,疾病 检测 等 ,而 数据 挖掘 
却 要 从 中 找 出 小 概率 的 样本 来 ,要 实现 可 靠 的 数据 结果 ,需要 根据 样本 数据 的 特点 正确 平衡 
数据 ,平衡 之 后 有 助 于 建立 能 够 真正 解决 业务 问题 的 模型 。 另 外 ,数据 平衡 之 后 还 要 监控 其 
变化 ,因为 随 着 时 间 的 推移 ,样本 的 结构 可 以 发 生变 化 ,需要 定期 进行 调整 ,以 保持 模型 的 准 
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确 性 。 

数据 挖掘 中 的 “平衡 "类 似 于 统计 学 中 的 加 权 , 为 了 使 分 类 中 的 样本 比例 更 加 合理 ,常用 
的 样本 平衡 包括 基于 采样 的 方法 、 对 正 负 样本 采用 不 同 的 代价 函数 、 使 用 集成 的 方法 等 , 假 
如 正 样 本 数量 远 远 小 于 负 样 本 数量 ,那么 可 以 采用 这 些 方法 进行 平衡 。 

基于 采样 的 方式 ,对 正 样本 过 采样 或 对 负 样 本 进行 欠 采 样 ,也 可 混合 方式 , 即 增加 正 样 
本 的 同时 减少 负 例 数量 ,这 种 方式 最 简单 ,只 是 调整 样本 集 就 可 以 达到 平衡 。 由 于 过 采样 是 
通过 复制 的 方式 实现 的 ,其 不 足 之 处 是 会 使 变量 的 方差 比 实际 的 小 。 当 然 , 过 采样 不 会 丢失 
样本 ,包括 样本 的 误差 。 而 欠 采 样 一 般 采 用 随机 删除 样本 的 方式 ,容易 去 掉 样 本 的 重要 特 
征 , 且 其 方差 比 实际 值 要 高 。R 语言 和 Scikit-learn 均 有 相应 的 工具 方法 可 以 用 于 调整 样本 
的 权重 值 。 在 采样 方式 选择 中 ,如 果 正 负 样 本 数 均 较 少 ,使 用 过 采样 ,如 果 正 负 样 本 数 均 足 
够 多 ,采用 下 采样 或 混合 方式 。 

在 模型 损失 函数 中 调整 惩罚 项 的 权重 ,增加 正 样本 的 权重 ,减少 负 样 本 权重 ,这 种 方法 
的 难点 要 根据 实际 情况 来 设置 权重 值 ,在 实际 应 用 中 一 般 让 各 个 分 类 的 加 权 损 失 值 近似 相 
等 ,但 是 由 于 和 矩阵 是 稀 朴 的 ,这 一 方法 在 实际 应 用 中 效果 不 是 很 好 。 

集成 的 方式 ,应 用 SMOTE、Boosting、Bagging 等 。SMOTE 是 Synthetic Minority 
Oversampling Technique 的 缩写 , 即 合成 少数 类 过 采样 技术 ,其 思想 是 在 正 例 中 创造 出 一 些 
新 的 样本 ,其 缺点 是 只 能 生成 某 一 范围 内 的 样本 ,不 能 创造 超出 少数 类 样本 之 外 的 新 样本 ， 
且 容 易 增 加 类 间 重 登 的 可 能 性 。 而 Boosting 和 Bagging 算法 主要 是 集成 多 个 弱 分 类 器 得 
到 更 合理 的 边界 ,实现 更 好 的 分 类 效果 ,Boosting 更 关注 被 错 分 的 样本 。 需 注意 的 是 ， 
Boosting 的 重 采 样 并 非 是 样本 ,而 是 样本 的 分 布 , 经 过 和 迭代 使 被 分 错 的 样本 逐渐 划分 到 下 一 
次 的 训练 集 ,优点 是 简单 ,也 不 用 担心 出 现 过 拟 合 ,缺点 是 噪声 点 和 蜡 常 点 敏感 ,因为 每 天 迭 
代 噪 声 样本 的 权重 都 会 被 放大 ,由 于 其 迭代 时 无 法 并 行 计算 ,所 以 运行 速度 较 慢 。 

统一 分 类 的 方法 ,将 少数 类 样本 统一 成 多 数 类 中 ,将 分 类 划分 问题 转化 为 异常 检测 ,这 
种 方法 重点 不 在 于 捕捉 类 间 的 差别 ,而 是 为 其 中 的 一 类 进行 建 模 , 然 后 将 少数 类 作为 异常 样 
本 进行 检测 ,采用 这 一 方法 的 前 提 是 训练 集中 数据 质量 较 高 ,如 果 其 本 身 含有 较 多 噪声 数 
据 ,容易 产生 较 大 误差 。 

上 述 几 种 方法 在 实际 应 用 中 效果 评价 很 关键 .评估 时 无 论 采 有 何 种 方法 进行 训练 ,最终 
要 使 用 实际 分 布 的 测试 集 进行 检验 。 另 外 ,不 能 使 用 准确 率 这 一 指标 ,应 该 使 用 ROC 曲 
线 、 准 确 度 召 回 曲线 .利润 收益 曲线 等 方式 对 结果 进行 可 视 化 ,或 者 使 用 AUC 召回 率 、.Fl 
分 值 等 指标 定量 评估 ,不 要 迷信 分 值 ,而 要 专注 于 少数 类 的 分 类 正确 率 。 

考虑 到 样本 数据 中 未 投保 移动 房车 险 的 记录 

















(aa 回国 回 ,5 此 为 94%%, 所 以 在 之 前 的 模型 选择 中 其 结果 虽 
ssa 国 然 准确 率 较 高 ,但 是 AUC 值 和 召回 率 的 分 值 并 不 
平衡 指令 : 高 ,在 IBM SPSS Modeler 中 的 可 使 用 “平衡 ?节点 
二 国 对 样本 记录 进行 随机 采样 ,如 图 2. 15 所 示 , 将 未 投 

习 。 保 移动 房车 险 的 记录 数 降 为 原来 的 20% ,大约 为 

局 人 gl 总 记录 数 的 18% ,而 投保 记录 数量 并 不 一 定 需 要 
Cae Laa EECG ER 与 未 投保 样本 数据 平均 分 布 ,所 以 只 升 为 原来 的 


图 2.15 平衡 节点 参数 配置 2 倍 ,其 记录 数量 与 未 投保 数量 大 体 一 致 , 约 为 


第 2 章 数据 挖掘 算法 的 选择 一 一 保险 产品 推荐 





12%。 因 子 设置 过 程 中 要 依据 实际 业务 情况 来 设置 ,没有 固定 规则 ,但 是 要 避免 过 多 地 复制 
少数 类 样本 ,或 对 多 数 类 样本 过 度 欠 采样 。 

经 过 平衡 后 ,再 次 使 用 自动 分 类 模型 进行 算法 探索 ,但 在 算法 排序 规则 中 选择 AUC 作 
为 评价 指标 , 即 曲线 下 的 面积 越 大 ,其 模型 排名 越 靠 前 ,结果 如 图 2. 16 所 示 , 前 5 个 模型 依 
次 为 逻辑 回归 、 类 神经 网 络 .CHAID.QUEST、CART, 虽 然 以 曲线 下 的 面积 作为 评价 标准 ， 
但 各 模型 的 总 体 精确 性 也 呈现 依次 降低 的 顺序 ,说 明 各 模型 未 被 样本 数据 “欺骗 ", 从 “图 形 ” 
选项 卡 中 的 结果 也 可 以 看 出 ,对 投保 移动 房车 险 的 预测 总 体 精确 性 高 于 60% ,AUC 值 最 高 
为 0.779, 具 有 一 定 的 应 用 价值 。 
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CE ] mn] LE ma | 
党 语文 件 E)， 局 生成 GO 地 视图 回 辐 口 
[Ea | 
基于 "模型 -选项 卡 中 的 所 有 模型 计算 图 形 ， 在 "模型 -选项 卡 上 取 滑 选中 的 模型 将 不 会 反映 在 这 些 图 形 中 
古 克 Au 
预测 变量 重要 性 
SXF- 移 动 房车 险 数量 
国 0.0 
1.0 














2.16 平衡 节点 参数 配置 
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经 过 逻辑 回归 模型 运算 ,得 到 如 图 2. 17(a) 所 示 的 分 析 结 果 ,AUC 值 较 低 ,Gini 值 也 较 
低 , 可 以 看 到 模型 的 分 类 能 力 提高 了 ,模型 的 召回 率 和 AUC 指标 值 也 提高 了 ,说 明 模型 的 
应 用 价值 有 所 提高 。 




















输出 字段 移动 房车 险 数量 的 结果 
身 单 独 模型 


2,781 69.53; 


上 息 比 较 $L- 移 动 房车 险 数量 与 移动 房车 险 数量 
正确 
二 30.48; 





合 矩 阵 ( 行 表示 实际 值 ) 
958 
92 





身 绩效 评估 
0.000000 















0.919| 


























工 0 (观测 值 的 0%) 
0.5 (观测 值 的 0%) 
从 未 达到 需求 等 级 
1.0 (观测 值 的 0%) | 
自 -评估 度量 
模型 AUC Cinil 
$L- 移 动 房车 险 数量 0.605 _0.209| 
(a) 逻辑 回归 模型 


是 输出 字段 移动 房车 险 数量 的 结果 
身 单独 模型 
自 比较 $R- 移 动 房车 险 数量 与 移动 房车 险 数量 
正确 2,882 72.05 








1.000000 0.614| 
9| RG5 芝 动车 险 数 生 的 置信 度 值 报告 








0.486 - 1.0| 


0.644| 
1.0 (观测 值 的 0%) 
0.519 (观测 值 的 0.07%) 
0.667| 

0.667 (观测 值 的 90.7%) 











名 评估 度量 
模型 AUC Cinil 
SR- 移 动 房车 险 数量 0.673 0.346| 























(b) CHAID 模 型 结果 
2.17 分 类 平衡 后 的 模型 结果 
CHAID 的 模型 正确 率 为 72.05%,AUC 和 Gini 系数 分 别 为 0.673 和 0. 346, 相 较 于 催 


辑 回归 均 有 一 定 提 高 ,从 移动 房车 险 的 符合 矩阵 中 也 可 以 看 到 对 于 投保 的 预测 正确 比例 要 
超过 预测 错误 比例 ,说 明 CHAID 模型 更 具有 应 用 价值 。 


2.4.5 修改 模型 参数 


模型 参数 在 一 定 程度 上 依赖 于 样本 的 特点 和 模型 的 原理 ,在 决策 树 模型 中 遇 到 不 平衡 
样本 可 以 使 用 增强 稳定 性 Boosting 或 Bagging 技术 进行 改进 , 像 逮 辑 回 归 算法 可 使 用 前 进 
法 或 后 退 法 逐步 剔除 非 显著 性 变量 来 改进 模型 ,而 支持 向 量 机 (SVM) 模 型 中 可 以 修改 惩罚 
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参数 L2 等 来 调 优 。 大 多 数 情况 下 ,参数 调 优 的 过 程 是 反复 渐进 式 的 ,很 难 一 跳 而 就 。 

1. 逻辑 回归 模型 参数 调 优 

为 了 进一步 提高 算法 的 AUC 等 指标 ,通过 改进 模型 参数 来 继续 优化 模型 ,在 逻辑 回归 
模型 中 可 选择 “多 项 式 ” 或 “二 项 式 ”, 数 据 集 的 目标 变量 有 和 多 个 分 类 时 选择 前 者 ,只 有 两 种 类 
别 时 选择 后 者 ,本 例 中 理论 上 可 选 二 项 式 , 但 是 模型 结果 改进 效果 有 限 。 

比较 选择 “进入 法 “前 进 法 ”“ 步 进 法 ”等 方法 后 的 模型 结果 ,看 是 否 改 进 ,其 中 进入 法 并 
不 对 输入 变量 做 选择 ,全 部 用 于 模型 ,前 进 法 或 步 进 法 则 是 先生 成 一 个 简单 模型 ,然后 逐渐 
增加 输入 变量 ,直到 新 加 入 的 变量 不 再 提高 模型 的 准确 性 为 止 ,向 后 法 则 相反 , 先 由 所 有 输 
和 变量 生成 模型 ,然后 逐渐 移 除 对 模型 影响 最 小 的 输入 变量 ,直到 无 法 删除 输入 变量 为 止 ， 
从 而 生成 模型 ,本 例 中 使 用 前 进 法 来 优化 模型 。 

除 此 之 外 ,通过 对 模型 的 输入 变量 手工 过 滤 来 提高 性 能 , 先 对 变量 进行 一 次 逻辑 回归 ， 
然后 将 其 中 不 显著 的 自 变量 (p 记 0.05) 上 剔除 ,重新 进行 逻辑 回归 ,这 样 可 以 使 模型 的 准确 率 
和 AUC 均 有 明显 提升 ,但 剔除 较 多 变量 后 模型 的 伪 尺 方 值 略 有 下 降 。 

本 例 对 “房产 数 近 同居 占 比 ”等 自 变 量 进行 剔除 后 得 到 如 图 2. 18 所 示 的 结果 ,可 以 看 
到 ,准确 率 从 未 调整 参数 前 的 69.53% 提 高 到 75.15%, 且 AUC 的 值 从 0. 605 提高 到 0. 676 ， 
改进 程度 较 大 。 

已 输出 字段 移动 房车 险 数量 的 结果 
日 单独 模型 


电 比较 $L- 移 动 房车 险 数量 与 移动 房车 险 数 量 
| 3,006 75.15; 





总 计 4,000, 
利 $L- 移 动 房车 险 数 量 [a ( 行 表 示 实 际 值 ) 





0.5 (观测 值 的 0%) 
0.974| 
2.0 以 上 的 折 台 正确 性 0.911 (观测 值 的 87.82%) 











自 评估 度量 
模型 AUC Gini 
$L- 移 动 房车 险 数 量 0.676 0.352 




















图 2.18 逻辑 回归 模型 参数 改进 后 的 结果 


2. CHAID 模型 参数 调 优 

Bagging 和 Boosting 都 是 用 来 提高 模型 准确 率 的 方法 ,其 中 Bagging 是 Bootstrap 
Aggregating 的 一 种 ,根据 均匀 概率 分 布 从 数据 集中 有 放 回 地 抽样 提取 样本 ,形成 多 个 训练 
集 , 然 后 得 到 多 个 训练 集 预 测 结果 ,并 对 结果 采用 投票 的 方式 处 理 分 类 问题 ,采用 平均 的 方 
法 处 理 回归 问题 。Boosting 是 通过 不 断 调 整训 练 失败 的 样本 较 大 权重 , 即 根据 错误 率 来 取 
样 ,通常 比 Bagging 方法 具有 更 高 的 准确 率 ,当然 ,也 有 可 能 会 引起 过 拟 合 。 

在 SPSS Modeler 中 可 以 使 用 这 些 技术 的 模型 有 神经 网 络 .CHAID、QUEST、CART、 
线性 回归 等 ,在 对 数据 特征 未 深入 理解 的 情况 下 ,可 分 别 测试 并 比较 Boosting 和 Bagging 
两 种 选项 的 结果 ,选择 结果 较 优 的 选项 。 
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本 例 对 CHAID 模型 使 用 Bagging 技术 进行 优化 ,并 选择 “ 似 然 比 ”作为 类 别 目 标的 卡 
方 , 成 分 模型 的 数量 设 为 10, 得 到 较 优 的 结果 如 图 2. 19 所 示 , 可 以 看 到 模型 的 准确 率 提高 
到 78.77%,AUC 和 Gini 系数 指标 分 别 为 0. 691 和 0. 383, 综 合 来 看 ,模型 的 改进 程度 
较 大 。 





号 输出 字段 移动 房车 险 数量 的 结果 
单独 模型 


所 比较 $R- 移 动 房车 险 数量 与 移动 房车 险 数 量 
正确 3,151 78.7 
错误 849 21.22; 
总 计 4.000 
所 $R- 移 动 房车 险 数量 的 符合 矩阵 ( 行 表示 实际 值 ) 











0.612-1.0| 
0.886| 
0.807| 
0.997 “观测 值 的 0.12%) 
0.612 (观测 值 的 0%) 
0.837| 


0.83 “观测 值 的 89.39%) 
自 评估 度量 


| 而 型 AUC Cimi 
LSR- 移 动 房车 险 数量 0.691 0.383 

















图 2.19 CHAID 模型 参数 改进 后 的 结果 


需要 注意 的 是 ,应 用 Bagging 或 Boosting 选项 后 ,模型 的 计算 量 会 大 幅 增 加 ,是 原来 的 
NN 倍 ( 成 分 模型 的 数量 ,默认 为 10) 。 所 以 ,训练 集 样本 数 较 多 时 ,训练 时 间 明 显 变 长 ,特别 
是 Boosting 方法 ,因为 它 的 预测 函数 是 串 行 生 成 的 ,不 支持 并 行 训 练 。 


2.5 总 结 


数据 探索 是 模型 选择 中 的 一 个 重要 环节 ,首先 要 分 析 目 标 变量 的 特点 ,决定 模型 的 选择 
范围 ,然后 分 析 自 变量 中 数据 分 布 的 特点 ,通过 可 视 化 技术 将 分 布 情况 以 图 形 化 方式 展示 ， 
不 仅 可 以 对 样本 有 直观 的 认识 ,也 可 以 大 致 推断 出 其 与 目标 变量 之 间 的 关系 。 模 型 结果 出 
来 后 ,还 可 以 用 于 验证 结果 的 合理 性 。 在 了 解数 据 特 点 的 基础 上 选择 模型 可 以 减少 很 多 工 
作 量 。 在 本 例 中 ,如 果 一 开始 就 清楚 目标 变量 中 具有 很 严重 的 不 平衡 问题 ,就 可 以 直接 在 模 
型 选择 前 先 对 其 做 平衡 处 理 。 

处 理 样本 平衡 时 要 与 业务 目标 结合 ,检查 模型 的 混 清 矩阵 ,看 各 分 类 中 的 比例 是 否 与 业 
务 要 求 一 致 , 像 欺 诈 这 种 小 概率 事件 检测 中 ,要 注意 模型 样本 数 很 少 的 分 类 易 被 模型 忽略 ， 
导致 预测 准确 率 虚 高 ,这 类 业务 下 平衡 数据 集 并 不 需要 将 分 类 数据 均匀 分 布 ,通过 采样 方式 
减少 某 一 分 类 样本 记录 数 时 ,要 避免 过 度 采样 导致 关键 样本 特征 丢失 ,也 要 注意 不 可 过 多 复 
制 单条 样本 ,防止 人 为 放大 某 一 数据 特征 ,对 上 述 情况 的 预防 措施 就 是 使 用 独立 的 测试 集 对 
模型 进行 检测 ,以 确定 模型 真实 有 效 。 此 外 ,需要 注意 某 些 分 析 任 务 中 要 求 目标 变量 不 同类 
样本 平衡 具有 固定 比例 时 ,如 性 别 比 要 求 1 : 1 等 ,而 企业 运营 中 数据 通常 是 动态 的 ,平衡 系 
数 也 需要 定期 手动 调节 。 

模型 选择 中 不 要 盲目 相信 机 器 自动 化 的 选择 ,由 于 机 器 并 不 熟悉 业务 ,其 对 于 模型 的 评 
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价 指标 无 法 与 业务 规则 相对 应 ,容易 导致 虚假 的 高 性 能 模型 结果 。 从 本 例 中 还 可 以 看 到 对 
模型 评价 指标 解读 的 重要 性 ,如果 不 能 从 评价 指标 中 发 现 问题 ,直接 应 用 模型 到 业务 系统 中 
将 无 法 带 来 有 益 的 作用 ,发现 模型 问题 的 能 力也 是 数据 挖掘 人 员 的 一 项 重要 实践 技能 ,发 现 
问题 后 蔡 换 模型 或 对 模型 不 断 地 调整 参数 ,使 其 结果 逐渐 逼近 业务 目标 要 求 ,最 终 才 可 能 在 
业务 中 应 用 。 

逻辑 回归 模型 中 的 预测 或 分 类 是 通过 回归 方程 实现 的 ,观察 逻辑 回归 方程 的 系数 ,其 值 
为 正则 说 明 具 有 正 向 影响 ,在 本 例 中 可 以 看 到 高 管 . 社 会 阶层 A、 社 会 阶层 B、 平 均 收入 、 投 
保 车 险 .投保 房车 险 .投保 火险 等 具有 较 高 的 正 系数 值 ,这 与 描述 性 统计 结果 一 致 , 即 高 收入 
中 产 以 上 阶层 且 对 家 庭 中 重要 资产 投 过 保 的 用 户 是 移动 房车 险 的 重要 目标 客户 群体 。 相 
反 , 社 会 阶层 D、 投 保 寿 险 、 投 保 身 残 险 的 用 户 基本 不 会 购买 此 险种 。 
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第 .了 音 


常用 可 视 化 的 多 维 分 析 


在 数据 分 析 中 ,通过 各 种 可 视 化 的 图 形 , 从 多 个 维度 、 多 个 层次 展示 企业 商务 的 执行 情 
况 ,发现 可 能 存在 的 问题 或 潜在 的 危机 ,并 预测 未 来 业务 发 展 的 趋势 ,具有 重要 的 价值 。 而 
且 利用 可 视 化 的 工具 ,也 可 以 发 现 数据 的 一 些 质量 问题 ,分布 特 点 ,可 以 为 进一步 的 数据 挖掘 
做 预 处 理 。 因 此 ,结合 业务 理解 ,利用 常用 的 可 视 化 工具 ,如 Tableau 、Lumira、 国 内 的 永 洪 大 数 
据 分 析 工 具 Yonghong Z-Suite 等 ,对 数据 做 一 定 深度 的 分 析 , 这 是 数据 分 析 师 的 基本 功 。 

可 视 化 图 形 通过 位 置 \ 长 . 宽 、 角 度 、 大 小 、 色 调 \、 形 状 等 多 个 方面 ,以 视觉 效果 来 表达 图 
形 相关 含义 。 在 数据 分 析 中 ,各 种 不 同 的 图 形 具有 各 异 的 作用 ,这 也 就 为 解决 多 元 问题 , 深 
层次 了 解 业务 逻辑 提供 了 方法 途径 。 

可 视 化 图 形 的 作用 各 异 , 箱 图 的 作用 是 展现 数据 的 离散 状态 ,以 其 数据 节点 : 上 限 、 下 
限 、 上 四 分 位 、 下 四 分 位 、 中 位 数 及 异常 值 为 依据 ,来 分 析 数 据 的 离散 程度 等 信息 ,可 应 用 于 
数据 预 处 理 ,识别 数据 异常 值 及 分 析 数 据 离散 状态 。 雷 达 图 的 作用 是 对 事物 的 不 同 维度 进 
行 分 析 研 究 (通常 ,维度 应 大 于 或 等 于 四 维 ) ,通过 网 状 结构 的 图 形 对 比 形象 展示 各 维度 属性 
的 相关 状态 。 标 签 云 的 作用 是 显示 词 频 , 将 标签 出 现 或 者 被 引用 的 多 少 ,通过 标签 字体 的 大 
小 和 颜色 等 视觉 效果 呈现 出 来 。 气 泡 图 的 作用 是 研究 数据 之 间 的 关系 ,以 气泡 的 位 置 和 大 
小 及 颜色 来 表现 变量 之 间 的 关联 。 树 图 的 作用 是 展现 数据 的 层次 关系 ,通过 树 图 区 域 模块 
的 占 比 .颜色 深浅 及 层次 等 信息 来 研究 数据 之 间 的 逻辑 结构 关系 。 地 图 的 作用 是 展示 数据 
与 地 理 位 置 之 间 的 关系 ,同时 ,可 以 根据 颜色 的 深浅 来 判断 地 理 区 域 或 关键 词 的 热门 程度 。 
高 低 图 的 作用 是 展现 数据 的 波动 特性 ,其 不 仅 能 研究 数据 长 期 波动 的 特性 ,也 能 研究 数据 短 
期 的 波动 特性 。 双 轴 图 的 作用 是 展现 数据 的 波动 特征 以 及 其 数据 之 间 的 关联 ,通过 在 同一 
分 析 图 形 中 绘制 不 同类 别 的 图 形 ,形象 地 展示 数据 之 间 的 关系 。 关 系 图 的 作用 是 展现 事物 
之 间 的 相关 性 及 其 逻辑 结构 ,以 事物 之 间 连 线 的 粗细 和 颜色 深浅 等 视觉 效果 为 依据 ,研究 事 
物 之 间 复 杂 的 逻辑 关系 。 热 图 的 作用 是 表现 数据 的 热点 特征 ,以 视觉 化 的 区 域 和 色彩 来 表 
现 数据 的 热点 程度 等 特征 。 
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在 种 类 繁多 的 分 析 图 形 中 ,需要 根据 研究 问题 的 不 同 , 选 取 适 当 的 分 析 图 形 来 进行 数据 
分 析 。 下 面 对 常用 的 分 析 图 形 作 简 要 介绍 。 


3.1 箱 图 


箱 图 是 一 种 显示 数据 离散 状态 的 分 析 图 形 。 通 过 箱 图 ,能 够 获得 相关 数据 节点 等 信息 。 
箱 图 主要 包含 6 个 数据 节点 : 上 限 、 下 限 、 上 四 分 位 、 中 位 数 、 下 四 分 位 和 异常 值 。 

通常 来 说 ,上 限 位 于 上 四 分 位 加 上 1.5 倍 四 分 位 距 处 ,下 限 位 于 下 四 分 位 减 去 1.5 倍 四 分 
位 距 处 (如 果 样 本 数据 在 上 四 分 位 加 上 1. 5 倍 四 分 位 距 及 下 四 分 位 减 去 1. 5 倍 四 分 位 距 处 无 
数据 , 则 上 下 限 即 为 样本 数据 的 最 大 值 和 最 小 值 ,这 种 情况 下 就 没有 异常 值 了 )。 在 箱 图 中 , 异 
常 值 定义 为 数据 点 在 样本 数据 中 的 位 置 大 于 上 四 分 位 加 上 1. 5 倍 四 分 位 距 或 小 于 下 四 分 位 减 
去 1.5 售 四 分 位 距 的 数据 。 其 中 ,温和 异常 值 使 用 “o” 表 示 ,极端 异常 值 使 用 * * ”表示 。 

在 箱 图 中 ,箱子 占据 了 样本 数据 的 一 半 , 因 而 ,箱子 的 宽度 在 一 定 程度 上 反映 了 数据 的 
波动 程度 。 箱 子 中 间 的 一 条 线 代 表 了 中 位 数 , 其 反映 了 样本 数据 的 平均 水 平 ,同时 ,当中 位 
数 偏离 上 四 分 位 和 下 四 分 位 中 心 位 置 时 ,数据 就 表现 出 一 种 偏 态 性 ,中 位 数 越 偏离 箱子 中 心 
位 置 , 偏 态 性 越 强 。 箱 图 的 另 一 主要 功能 是 识别 数据 异常 。 进 行 数据 分 析 时 ,异常 数据 可 能 
会 对 分 析 结 果 造 成 影响 ,因而 ,通过 箱 图 识别 出 异常 值 , 并 将 其 剔除 ,这 将 有 利于 数据 分 析 结 
果 的 正确 性 。 与 其 他 统计 图 形 相 比 , 箱 图 可 以 将 多 批 数据 放 在 同一 坐标 轴 上 ,并 排 排列 进行 
对 比 ,使 得 样本 数据 特征 的 分 析 变 得 更 加 容易 。 

为 了 更 加 形象 地 了 解 箱 图 相关 结构 特点 及 功能 ,结合 香水 实例 ,使 用 SPSS Statistics 工 
具 绘 制 出 的 箱 图 如 图 3. 1 所 示 ,统计 分 析 香 水 价格 的 相关 情况 。 
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图 3.1 香水 价格 的 箱 图 
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图 3. 1 所 示 箱 图 有 关 的 几 个 数据 如 下 。 

下 限 : 9.9, 由 箱子 下 方 的 一 条 线 表 示 , 下 限 由 下 四 分 位 数 减 去 1. 5 倍 四 分 位 距 决定 。 
下 四 分 位 : 200, 由 箱子 的 下 边线 表示 ,代表 数据 的 下 四 分 位 。 中 位 数 : 385, 由 箱子 中 间 的 
一 条 线 表示 ,代表 数据 的 中 位 数 ,反映 了 香水 价格 的 平均 水 平 为 385。 上 四 分 位 : 600, 由 箱 
子 的 上 边线 表示 ,代表 数据 的 上 四 分 位 。 上 限 : 1189, 由 箱子 上 方 的 一 条 线 表示 ,上 限 由 上 
四 分 位 数 加 上 1.5 倍 的 四 分 位 距 决定 。 

从 图 3. 1 中 可 以 看 到 大 于 上 限 的 圆圈 点 ,这 些 点 就 是 异常 值 ,分 析 数 据 时 可 将 其 忽略 。 
此 外 ,这 些 数 据点 对 应 的 标号 是 这 些 异 常 点 在 样本 数据 之 中 的 位 置 ,可 以 根据 这 个 位 置信 息 
找到 该 异常 点 在 原始 数据 中 的 具体 位 置 。994 一 1005 号 数据 都 是 温和 异常 值 ,用 “o” 来 表 
示 ; 1006 一 1009 号 数据 都 是 极端 异常 值 ,用 * * ”表示 。 

绘制 箱 图 前 ,有 可 能 需要 对 数据 进行 预 处 理 。 举 例 说 明 : 针对 香水 样本 数据 ,评价 量 在 
一 定 程度 上 反映 销售 量 , 对 “探究 不 同 品牌 香水 评价 量 相 关 特 征 ” 这 一 问题 进行 分 析 ,在 未 对 
数据 进行 预 处 理 之 前 ,使 用 SPSS Statistics 工具 绘制 箱 图 ,如 图 3. 2 所 示 。 
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3.2 不 同 品牌 香水 的 评价 量 箱 图 


由 于 箱 图 本 身 形状 怪异 ,箱子 被 压 扁 且 有 很 多 的 异常 值 ,因而 很 难 从 图 3. 2 中 得 到 具体 
结论 。 分 析 其 原因 ,是 因为 没有 对 样本 数据 进行 预 处 理 ( 当 然 ,也 不 是 所 有 样本 数据 都 需要 
进行 预 处 理 )。 针 对 此 类 问题 ,如 果 数 据 取 值 为 正 数 , 一 个 解决 方法 就 是 尝试 使 用 对 数 变换 
来 对 数据 进行 预 处 理 , 使 智 函数 或 指数 函数 的 曲线 拟 合 线性 化 ,能 够 很 好 地 处 理 不 对 称 分 
布 . 非 正 态 分 布 和 异 方 差 等 情况 。 

针对 本 实例 ,首先 使 用 对 数 变换 来 对 样本 数据 进行 预 处 理 。 使 用 底 为 10 的 对 数 进行 处 
理 , 得 到 评价 的 对 数 变 换 结果 ,存储 至 评价 数量 这 一 变量 中 ,然后 绘制 对 数 变换 后 不 同 品牌 
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香水 的 评价 量 箱 图 ,如 图 3. 3 所 示 。 
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3.3 对 数 变换 后 不 同 品牌 香水 的 评价 量 箱 图 


对 比 图 3. 2 与 图 3. 3 发现 经 过 对 数 变换 的 箱 图 可 更 加 直观 地 表现 出 数据 的 平均 水 平 、 
波动 程度 和 偏 态 等 信息 。 这 一 点 说 明 不 是 所 有 数据 都 适合 画 箱 图 ,但 是 可 以 利用 数据 变换 
进行 预 处 理 , 使 得 数据 适合 用 来 绘制 箱 图 。 

箱 图 的 另 一 功能 是 使 用 定性 变量 画 分 组 箱 图 ,各 个 箱 图 之 间作 比较 。 结 合 前 面 分 析 的 
实例 ,图 3. 1 只 设置 了 一 个 定量 变量 ,所 以 只 有 一 个 箱 图 ,而 这 就 让 箱 图 失去 了 它 的 一 个 很 
重要 的 功能 : 多 批 次 数据 的 对 比 。 而 且 , 一 个 箱子 的 箱 图 是 没有 必要 的 ,完全 可 以 由 直方 图 
来 代替 。 图 3. 3 所 示 箱 图 设置 了 定性 变量 一 一 商品 名 称 , 通 过 商品 名 称 这 一 定性 变量 ,就 能 
在 一 个 箱 图 中 绘制 多 个 箱子 ,在 同一 水 平 上 对 各 个 箱子 相关 数据 节点 进行 比较 ,得 到 多 批 次 
数据 之 间 的 关系 。 


3.2 雷达 图 


雷达 图 是 一 种 应 用 于 多 维 数据 分 析 的 图 形 , 通 过 对 多 维 数据 进行 分 析 ,来 探究 问题 的 相 
关 状 态 。 雷 达 图 主要 应 用 于 财务 分 析 , 其 主要 作用 是 将 各 项 数据 分 析 的 数 或 比率 ,集中 展现 
在 一 个 圆 形 的 图 形 或 者 正 多 边 形 上 ,以 凸显 各 种 数据 比率 情况 。 在 财务 分 析 中 ,雷达 图 主要 
用 于 分 析 企 业经 营 状 况 一 一 收益 性 、 生 产 性 、 流 动 性 、 安 全 性 和 成 长 性 的 状况 。 

雷达 图 可 以 从 静态 和 动态 两 个 方面 分 析 客 户 的 财务 状况 。 静 态 分 析 是 将 客户 的 各 种 财 
务 比 率 与 其 他 客户 或 者 整个 行业 的 财务 比率 作 横向 比较 ; 动态 分 析 是 将 客户 现在 的 财务 比 
率 与 以 前 的 财务 比率 作 纵 向 比较 ,就 可 以 发 现 客户 财务 及 经 营 情况 的 发 展 方向 和 变化 。 雷 
达 图 将 纵向 和 横向 的 分 析 比 较 方法 结合 起 来 ,综合 计算 客户 的 收益 性 、 流 动 性 ,成 长 性 、 安 全 
性 及 生产 性 等 5 类 指标 。 
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雷达 图 的 样式 是 一 种 类 似 于 蜂 蛛 网 状 的 图 形 , 主 要 通过 将 企业 的 各 种 经 营 比率 值 连接 
而 成 的 不 规则 闭环 折线 图 与 各 同心 圆 进行 比较 ,得 到 企业 经 营 态 势 的 好 坏 。 其 中 ,同心 圆 最 
小 圆 代 表 同 行业 平均 水 平 的 一 半 或 者 最 差 水 平 , 中 心 圆 中 等 大 小 的 圆 代表 同行 业 的 平均 水 
平 或 特定 比较 对 象 的 水 平 , 大 圆 代 表 同 行业 平均 水 平 的 1. 5 倍 或 最 佳 状态 。 然 后 ,将 同心 圆 
等 分 为 5 个 扇 区 ,每 个 扇 区 指 代 一 个 维度 ,分 别 代表 收益 性 、 安 全 性 ,流动 性 、 成 长 性 和 生产 
性 指标 区 域 。 

上 述 介绍 的 财务 分 析 只 是 雷达 图 的 主要 应 用 领域 。 在 雷达 图 的 通用 性 方面 ,其 适用 范 
围 和 规则 简要 许多 ,主要 解决 多 维 数据 的 分 析 , 且 每 个 维度 都 是 可 以 度量 的 。 一 般 来 讲 , 雷 
达 图 的 维度 数目 应 大 于 等 于 4。 

结合 香水 案例 数据 , 先 对 数据 进行 预 处 理 , 选 取 中 国 、 美 国 、 法 国 、 意 大 利 及 英国 5 国 ,分 
析 其 销售 量 、 品 牌 数 、 产 品质 量 、 平 均 评价 数 及 平均 价格 5 个 维度 相关 特性 ,其 中 ,各 个 维度 
数据 代表 其 占 样本 数据 相对 应 维度 总 体 的 比例 。 使 用 SAP Lumira 绘制 雷达 图 ,如 图 3. 4 
所 示 。 
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图 3.4 雷达 图 


分 析 图 3.4 所 示 的 雷达 图 ,这 里 的 雷达 图 显然 不 是 应 用 于 企业 的 财务 分 析 , 而 是 雷达 图 
通用 性 的 体现 。 此 图 拥有 5 个 维度 ,分 别 为 销售 量 、 品 牌 数 产品 质量 、 平 均 评价 数 及 平均 价 
格 。 根 据 图 3.4 可 以 很 直观 地 得 到 法 国 在 5 个 维度 上 基本 都 占据 了 优势 ,因而 可 以 推断 出 
法 国 在 香水 领域 处 于 领军 地 位 ,而 这 一 点 也 符合 我 们 对 法 国 香水 的 认识 。 美 国 、 英 国 及 意 大 
利 3 国 在 各 个 维度 上 水 平 相当 ,基本 都 处 于 中 等 水 平 。 而 中 国 香水 除了 在 品牌 数量 之 外 ,其 
余 各 个 维度 基本 都 处 于 较 低层 次 水 平 , 因 而 .中国 品牌 香水 想 在 香水 领域 做 出 一 番 成 就 ,还 
有 很 长 的 路 要 走 。 

综合 以 上 分 析 ,可 以 总 结 出 以 下 几 条 : 

。 雷达 图 主要 应 用 于 财务 分 析 , 对 企业 经 营 状况 的 5 类 指标 (流动 性 .生产 性 、 安 全 性 、 

收益 性 和 成 长 性 ) 进 行 评价 ,来 综合 评估 企业 的 经 营 状 况 。 
。 使 用 雷达 图 之 前 ,一 般 需 要 进行 预 处 理 , 首 先 计 算出 所 需 分 析 维度 的 占 比 ,然后 进行 
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绘图 分 析 。 

。 雷达 图 使 用 的 样本 数据 ,应 该 由 一 个 或 多 个 定性 变量 和 多 个 连续 型 变量 组 成 ,因而 
雷达 图 能 够 进行 多 元 多 维度 比较 ,更 加 形象 直观 地 反映 出 数据 特征 。 如 果 只 是 一 
连续 型 变量 , 则 更 适合 选择 箱 图 来 绘制 图 形 。 


3.3 标签 云 


标签 云 是 关键 词 的 视觉 化 描述 ,是 一 套 标 签 和 与 此 对 应 的 权重 。 标 签 云 作为 一 种 数据 
可 视 化 工具 ,其 标签 一 般 是 独立 词汇 ,通常 使 用 XHTML( 可 扩展 超 文本 标记 语言 ,通常 设 
计 成 一 个 超 链接 ) 元 素来 表现 ,按照 字典 顺序 、 随 机 顺序 以 及 热门 程度 等 排序 准则 进行 排序 。 
一 般 的 标签 云 含有 30 一 150 个 标签 ,每 个 标签 对 应 的 权重 影响 标签 的 字体 大 小 、 颜 色 或 者 其 
他 视觉 效果 。 标 签 云 是 可 以 交互 的 ,大 多 数 标签 都 有 一 个 超 链接 ,用 户 可 以 单 击 查看 其 详细 
信息 。 与 直方 图 或 饼 图 相 比 ,标签 云 能 代表 更 多 的 信息 ,尽管 不 那么 准确 。 一 般 来 讲 ,标签 
去 有 4 种 属性 : 字号 (一 般 与 标签 使 用 次 数 相关 ) ,排列 (按照 字典 顺序 、 随 机 及 热门 程度 等 
准则 排序 ) .颜色 (固定 渐进 色 、 是 否 加 背景 等 ) 以 及 字体 (可 根据 自身 喜好 设置 )。 

在 设计 标签 云 的 时 候 , 可 以 选择 比较 心仪 的 图 片 或 者 适合 用 例 场 景 的 图 片 作为 填充 对 
象 ,最 后 填充 得 到 的 标签 云 就 会 很 形象 地 展现 出 来 。 

运用 香水 案例 数据 对 数据 进行 预 处 理 , 使 用 SAP Lumira 绘制 其 关于 香水 品牌 .价格 和 
评价 量 之 间 关 系 的 标签 云 ,如 图 3.5 所 示 。 
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3.5 香水 品牌 销量 标签 云 


由 标签 云 的 字体 属性 可 知 ,字体 的 大 小 反映 了 香水 品牌 价格 的 高 低 , 即 字体 越 大 品牌 的 
价格 越 高 。 从 图 3. 5 能 清晰 地 看 出 香奈 儿 、 迪 奥 及 古驰 等 品牌 字体 最 大 ,因而 价格 最 高 。 字 
体 的 颜色 代表 了 产品 品牌 的 评价 量 ,颜色 越 深 ,代表 评价 数量 越 多 。 对 此 例 进行 分 析 , 可 以 
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非常 清楚 地 了 解 各 品牌 香水 评价 量 之 间 的 比较 情况 。 虽 然 标 签 云 能 形象 地 表示 数据 之 间 的 
关系 ,但 是 其 很 难得 到 具体 的 数据 情况 。 以 直方 图 为 例 ,分 析 各 品牌 销量 之 间 的 关系 。 香 水 



































品牌 销量 直方 图 如 图 3. 6 所 示 。 
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图 3.6 香水 品牌 销量 直方 图 


对 比 图 3. 5 和 图 3.6, 在 不 要 求 精确 性 的 前 提 下 ,标签 云 比 直方 图 更 加 形象 地 展现 数据 
之 间 的 关系 ,特别 是 针对 权 多 的 数据 样本 ,绘制 标签 云 更 有 利于 对 数据 进行 解读 。 
综合 以 上 分 析 ,总 结 如 下 : 
。 标签 云 使 用 独立 词汇 ,通过 字号 ,颜色 ,排序 和 字体 等 属性 ,来 形象 地 体现 标签 的 使 
用 次 数 及 热门 程度 等 相关 特性 。 
。 标签 云 描述 的 特性 并 不 能 非常 精确 地 呈现 出 来 ,因而 标签 云 并 不 适用 于 那些 对 绘图 
结果 要 求 非常 准确 的 场景 。 


3.4 气泡 图 


气泡 图 中 气泡 的 位 置 和 大 小 由 三 维 变量 决定 ,其 中 第 一 组 变量 给 出 直角 坐标 系 的 x 轴 
值 , 相 邻 组 变量 给 出 > 轴 值 ,第 三 组 数据 则 指 代 气 泡 的 大 小 ,以 上 基本 就 是 气泡 图 的 逻辑 构 
成 。 气 泡 图 基本 上 与 XY 散 点 图 类 似 ,可 以 说 ,气泡 图 是 散 点 图 的 升级 。 散 点 图 只 能 对 成 组 
的 两 个 数值 进行 比较 ,而 气泡 图 可 以 对 成 组 的 多 个 数值 进行 比较 。 

使 用 香水 案例 数据 ,并 对 数据 进行 预 处 理 , 得 到 不 同 品牌 的 平均 评价 数量 和 销售 数量 以 
及 平均 销售 价格 。 从 中 选取 香奈 儿 、` 迪 奥 .兰芝 古驰、 范思哲 、 博 柏 利安 娜 苏 . 爱 马 仕 和 卡 
尔 克 莱 9 个 占据 大 多 数 销 售 量 的 品牌 进行 分 析 , 对 数据 进行 预 处 理 , 得 到 表 3. 1 。 


表 3.1 品牌 香水 记录 表 

















品 平均 评价 数 平均 价格 /元 销售 量 
香奈 儿 4303 708 164 
迪奥 1882 573 131 
兰 3073 388 45 
古驰 6262 544 67 
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续 表 
品牌 平均 评价 数 平均 价格 /元 销售 量 
范思哲 9359 340 55 
博 柏 利 9511 338 51 
安娜 苏 5262 289 41 
爱马仕 848 717 24 
卡尔 克 莱 12 251 319 40 














通过 表 3. 1, 以 平均 价格 为 x 轴 , 以 平均 评价 数 为 y 轴 , 以 销售 量 来 确定 气泡 的 大 小 ,使 
用 SAP Lumira 绘制 气泡 图 ,如 图 3.7 所 示 。 
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图 3.7 品牌 香水 气泡 图 


观察 图 3.7 所 示 的 气泡 图 ,通过 气泡 的 位 置 和 大 小 ,很 直观 地 得 到 各 品牌 的 平均 评价 数 
和 平均 价格 及 销量 在 总 体 样本 数据 中 的 具体 情况 。 其 中 ,在 本 例 中 ,使 用 不 同 颜 色 标 记 气 
泡 ,每 种 颜色 代表 一 种 品牌 ,这 样 更 利于 对 比分 析 各 香水 品牌 的 相关 数据 。 气 泡 的 大 小 反映 
了 销量 的 多 少 。 可 见 ,香奈 儿 和 迪奥 品牌 香水 销量 最 高 。 


3.5 树 图 


树 图 是 为 了 达到 某 种 目的 或 者 解决 某 一 问题 ,采用 目的 方法 或 者 结果 原因 方法 , 层 层 展 
开 分 析 , 以 寻找 最 好 的 解决 方法 或 者 是 查看 其 根本 原因 。 树 图 从 一 个 项 目 出 发 ,展开 两 个 或 
两 个 以 上 分 支 ,然后 从 每 一 个 分 支 再 继续 展开 ,以 此 类 推 ,形似 一 棵 树 。 

按照 功能 ,可 以 将 树 图 分 为 两 类 : 对 策 型 树 图 和 原因 型 树 图 。 对 策 型 树 图 主要 以 目的 
方法 方式 展开 ,而 原因 型 树 图 则 以 结果 原因 方式 展开 。 
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目的 方法 方式 主要 是 遵循 层 层 推进 规则 ,对 于 每 一 目的 ,进行 层 层 发 问 , 寻 求 好 的 方法 
或 者 途径 来 达到 目的 ,也 就 构建 了 对 策 型 树 图 。 结 果 原 因 方 式 则 是 针对 结果 进行 发 问 , 有 哪 
些 原因 会 导致 这 个 结果 或 者 哪些 事项 会 对 这 个 结果 造成 影响 ,通过 这 种 层 层 推进 分 析 ,也 就 
建立 了 原因 型 系统 图 。 

树 图 还 可 分 为 矩形 树 图 .组 织 结构 图 等 。 其 中 ,组 织 结构 图 用 于 描述 组 织 结构 ,一般 
采用 自 上 而 下 的 展开 形式 。 而 对 于 和 矩形 树 图 ,其 主要 用 来 展示 层次 关系 数据 。 相 对 于 其 
他 层次 图 表 ,矩阵 树 图 的 优势 在 于 更 加 直观 ,并 且 可 以 展示 层级 内 的 占 比 关系 ,直观 地 反 
映 区 域 占 总 体 的 比率 ,同时 ,矩形 树 图 还 能 依据 区 域 颜色 的 深浅 来 反映 不 同 关 键 词 的 热 
门 程度 。 

树 图 通常 用 来 将 主要 的 类 别 逐 渐 分 解 成 越 来 越 详 细 的 层 , 这 样 绘制 树 图 有 助 于 思维 从 
一 般 到 具体 。 在 香水 案例 中 ,首先 对 数据 进行 预 处 理 , 得 到 不 同 品牌 的 销售 量 以 及 平均 价 
格 , 并 以 销售 量 和 平均 价格 为 度量 ,品牌 为 维 , 使 用 SAP Lumira 绘制 矩形 树 图 ,如 图 3. 8 
所 示 。 
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图 3.8 树 图 


图 3. 8 所 示 树 图 就 是 一 种 典型 的 矩形 树 图 ,其 中 销售 量 为 第 一 度量 ,根据 销售 量 的 多 少 
来 划分 矩形 大 小 。 平 均 价格 为 第 二 度量 ,根据 其 平均 价格 的 高 低 决定 相应 数据 模块 的 颜色 
深浅 。 从 图 3. 8 可 以 非常 直观 地 看 出 ,香奈 儿 品 牌 香水 不 仅 销量 好 ,评价 多 ,而 且 价 格 还 比 
较 高 。 这 说 明了 香奈 儿 品 牌 香水 口碑 好 ,销售 情况 好 。 


3.6 地 图 
地 图 是 以 一 定 的 数学 、 符 号 化 \ 抽 象 化 法 则 ,使 用 制图 方法 ,反映 客观 实际 形象 的 符号 模 


型 或 者 图 形 数学 模型 。 地 图 是 按照 一 定 的 比例 运用 符号 颜色 .文字 注 记 等 描述 显示 地 球 表 
面 的 自然 地 理 、 行 政 区 域 . 社 会 经 济 状况 的 图 形 。 在 适用 于 数据 分 析 的 地 图 图 形 前 提 下 ,这 
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里 介绍 的 是 数据 地 图 。 遇 到 数据 与 地 名 的 场景 时 ,使 用 地 图 能 更 加 形象 地 展示 数据 与 地 理 
位 置 之 间 的 关系 。 数 据 地 图 是 一 种 将 数据 与 地 理 信息 有 机 结合 的 一 种 地 理 数 据 表 达 方式 。 
数据 地 图 是 以 图 形 化 的 方式 分 析 和 展示 与 地 理 位 置 相关 的 数据 ,使 得 数据 与 地 理 之 间 的 关 
系 更 加 直观 ,形象 化 。 地 图 能 够 很 直观 地 反映 数据 与 地 理 位 置 之 间 的 关系 , 且 这 种 关系 可 以 
是 分 层 的 ,通过 地 图 下 钻 操作 ,可 以 探查 数据 与 不 同 层 次 地 理 位 置 之 间 的 关系 。 同 时 ,还 能 
通过 颜色 的 深浅 来 判断 地 区 或 关键 词 的 热门 程度 。 

地 图 图 层 是 对 空间 表达 的 一 种 重要 途径 。 一 个 地 图 可 以 拥有 多 个 图 层 ,将 其 亚 加 就 能 
得 到 地 图 的 底层 (类 似 于 背景 图 层 ) ,构成 地 图 中 最 基本 的 地 形 、 地 貌 数 据 及 某 些 附属 数据 或 
信息 。 

建立 地 理智 能 对 象 时 ,如 果 将 地 理 位 置信 息 转换 为 地 理 层 次 结构 ,建立 地 理 层次 结 
构 ,就 能 实现 地 图 的 下 钻 操作 。 在 香水 案例 中 ,以 商品 产地 为 例 , 对 数据 进行 预 处 理 后 ， 
建立 地 理 层次 结构 。 以 评价 量 为 度量 (评价 量 能 在 一 定 程度 上 反映 商品 销量 ), 使 用 SAP 
Lumira 绘制 包含 下 钻 操作 的 地 图 。 在 地 理 维 度 里 会 出 现 分 层次 的 地 理 维 度 选 项 ,可 以 选 
择 以 国家 或 地 区 为 维度 标准 ,也 可 以 选择 以 城市 为 地 理 维 度 标准 ,得 到 以 城市 为 维度 的 
地 图 。 

地 图 下 钻 能 够 很 好 地 处 理 地 理 位 置 之 间 具有 层次 关系 的 问题 。 在 进行 下 钻 操作 后 ,可 
以 将 研究 问题 进行 细 化 ,分 析 问 题 的 局 部 特点 。 例 如 ,通过 对 中 国 香水 销售 的 分 析 可 以 了 解 
到 中 国 香水 的 几 个 产地 ,以 及 该 产地 香水 评价 量 的 平均 水 平 ,进而 推算 出 各 产地 销售 量 的 大 
概 水 平 。 


3.7 高 低 图 


高 低 图 是 采用 多 条 垂直 线段 表示 数值 区 域 的 统计 图 形 , 能 够 将 数值 区 域 形象 地 表示 在 
图 形 上 ,通过 多 组 数据 并 行 比较 ,易于 分 析 数 据 区 域 的 相关 特性 。 高 低 图 与 折线 图 、 散 点 图 、 
条 形 图 等 统计 图 相 比 , 它 既 有 研究 数据 长 期 变化 的 特性 ,也 有 研究 短期 内 数据 变化 的 特性 。 
因为 这 些 特性 ,高低 图 广泛 应 用 于 股票 商品、 货币 及 其 他 市 场 数据 分 析 中 。 

高 低 图 绘制 过 程 中 , 纵 坐 标 表 示 一 个 三 维 数据 ,分 别 为 高 值 . 低 值 及 关闭 。 高 值 代表 对 
应 数值 区 域 的 上 限 , 低 值 代表 对 应 数据 区 域 的 下 限 ,关闭 是 用 户 指定 的 一 个 特殊 变量 (如 数 
据 集 的 平均 值 ) ,可 以 在 数据 区 域 上 以 小 圆圈 的 形式 标 出 。 

为 了 更 加 直观 地 了 解 高 低 图 ,依据 香水 样本 数据 ,以 香水 价格 平均 数 为 关闭 变量 、 香 水 
价格 最 小 值 为 低 值 变量 、 香 水 价格 最 大 值 为 高 值 变 量 ,以 香水 品牌 确定 类 别 ,使 用 SPSS 
Statistics 工具 绘制 高 低 图 ,如 图 3.9 所 示 。 

图 3. 9 显示 了 一 些 主要 的 香水 品牌 价格 的 高 低 图 ,从 中 可 以 直观 地 了 解 各 数据 集 的 区 
域 范围 。 通 过 关闭 在 高 低 图 中 小 圆圈 的 表示 ,可 以 了 解 各 品牌 香水 的 平均 价格 。 通 过 对 高 
值 变量 的 分 析 , 可 以 得 到 迪奥 和 香奈 儿 两 个 品牌 香水 基本 占据 了 高 端 香水 市 场 。 各 品牌 香 
水 的 平均 价格 在 400 一 700 元 波动 。 
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图 3.9 高 低 图 


3.8 双 轴 图 


双 轴 图 是 一 种 单 x 轴 双 > 轴 的 统计 图 形 , 这 里 的 双 y 轴 指 有 两 条 > 轴 , 位 于 两 侧 , 代 表 
了 两 种 变量 含义 ,这 样 就 能 根据 x 轴 变 量变 化 绘制 出 两 条 不 同 图 形 , 可 以 简易 地 看 成 两 种 
统计 图 形 的 合并 。 绘 制 的 图 形 可 以 采用 多 类 图 形 ,如 折线 图 、 直 方 图 和 散 点 图 等 。 

双 轴 图 可 以 依据 xz 轴 的 分 类 类 型 分 为 两 类 : 包含 分 类 z 轴 的 双 y 轴 及 包含 刻度 x 轴 的 
双 y 轴 。 分 类 工 轴 的 双 > 轴 类 型 对 应 的 zx 轴 变 量 是 非 连续 型 变量 ,而 包含 刻度 的 xz 轴 的 双 
y 轴 类 型 对 应 的 x 轴 变 量 是 连续 型 变量 。 

双 轴 图 能 够 在 同一 统计 图 形 上 采用 两 种 绘图 方式 ,并 且 将 结果 展示 在 同一 统计 图 形 上 ， 
使 得 能 够 更 加 形象 地 对 比分 析 多 组 数据 特征 。 当 采用 不 同 统计 图 形 的 绘制 方法 绘制 双 轴 图 
时 效果 对 比 明显 ,如 折线 与 直方 图 的 琶 加 ,就 能 够 很 好 地 展示 数据 特征 。 

为 了 更 加 形象 地 表示 双 轴 图 的 特征 ,依据 香水 案例 ,设置 香水 品牌 为 分 类 z 轴 , 左 侧 
y 轴 为 各 个 品牌 评价 平均 数 , 右 侧 y 轴 为 各 个 品牌 价格 平均 数 ,使 用 SPSS Statistics 工具 绘 
制 的 双 轴 图 如 图 3. 10 所 示 。 

通过 图 3. 10 所 示 的 双 轴 图 ,在 已 列 的 各 品牌 香水 中 ,香水 的 平均 评价 数 高 的 对 应 的 平 
均 价 格 一 般 较 低 ,香水 的 平均 评价 数 低 的 对 应 的 平均 价格 一 般 较 高 。 由 此 可 见 ,不 同 品牌 香 
水 的 平均 评价 数 与 平均 价格 呈现 一 种 负 相 关 趋势 。 对 于 那些 平均 评价 数 中 等 的 品牌 ,其 平 
均 价格 也 保持 中 等 。 
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图 3.10 双 轴 图 


3.9 关系 图 


关系 图 是 使 用 连 线 的 方式 ,将 相关 事务 连接 起 来 ,表示 事物 相关 性 的 图 形 ,这 里 的 相关 
性 指 的 是 事物 之 间 复杂 的 逻辑 关系 。 关 系 图 通过 对 事物 相关 性 的 研究 , 找 出 事物 之 间 复 杂 
的 逻辑 关系 ,从 而 找 出 要 素 和 解决 问题 的 方法 。 

在 对 事物 的 逻辑 结构 进行 分 析 时 ,如 果 分 析 的 关系 是 纵向 关系 , 即 分 析 的 是 单个 事物 内 
部 因素 之 间 的 关系 , 则 可 以 选用 "原因 结果 、 目 的 方法 等 "方法 来 研究 。 如 果 分 析 的 关系 是 横 
向 关系 , 即 需要 分 析 多 个 事物 之 间 的 复杂 逻辑 结构 ,这 时 就 需要 应 用 关系 图 。 

关系 图 按 其 应 用 目的 来 分 ,可 分 为 : 单一 目的 型 和 多 目的 型 (研究 问题 的 个 数 ); 按照 
其 分 布 结构 来 分 ,可 分 为 : 中 央 集 中 型 (箭头 向 内 集中 ) 和 单 向 汇集 型 (箭头 单 向 顺延 )。 在 
对 关系 图 分 析 时 ,箭头 只 进 不 出 的 是 问题 ; 箭头 只 出 不 进 的 是 重要 因素 ; 箭头 有 出 有 进 的 
是 中 间 因 素 。 需 要 指出 的 是 ,一 般 适用 于 关系 图 的 场景 应 该 是 事物 之 间 的 逻辑 关系 非常 复 
杂 的 ,简单 的 场景 可 以 由 树 图 等 来 研究 其 相关 逻辑 特征 。 

为 了 更 加 直观 地 了 解 关系 图 的 相关 特征 ,结合 香水 案例 ,对 商品 名 称 、 香 调 、 分 类 、 商 品 
产地 及 性 别 5 个 字段 使 用 关系 图 来 了 解 其 相互 逻辑 关系 。 使 用 IBM SPSS Modeler 绘制 关 
系 图 ,如 图 3. 11 所 示 。 

分 析 图 3. 11 所 示 的 关系 图 ,关系 图 中 各 元 素 字 段 之 间 使 用 线段 粗细 来 表示 两 因素 之 间 
联系 的 强 弱 ,线段 越 粗 .颜色 越 深 , 代 表 其 联系 越 强 。 这 里 给 出 了 其 链接 强度 的 相关 数据 , 见 
表 32。 
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范思哲 | 浓 香水 EDP 

菲 拉 格 幕 花 果 香 调 

© 
卡 文 克 莱 , 木质 香 调 
安娜 苏 东方 香 调 
全 分 类 ”上 @ 商 品 产 地 @ 商品 名 称 ” @ 香 调 性别 
图 3.11 关系 图 
表 3.2 链接 强度 表 

链接 字段 1 字段 2 
6.65% 香 调 一 " 花 果 香 调 " 性 别 =" 女 " 
5.98% 分 类 ==" 淡 香水 EDT" 性 别 =" 女 " 
4.66% 商品 产地 ==" 法 国 " 性 别 =" 女 " 
4.62% 香 调 一" 花 果 香 调 " 分 类 一" 淡 香 水 EDT" 
3.27% 分 类 一" 浓 香 水 EDP" 性 别 =" 女 " 
3.21% 香 调 二 " 花 果 香 调 " 商品 产地 =" 法 国 " 
2.76% 分 类 一 " 淡 香 水 EDT" 商品 产地 = "法 国 " 
2.12% 香 调 = 二" 花 果 香 调 " 分 类 = " 浓 香 水 EDP" 
1.99% 分 类 二" 浓 香水 EDP" 商品 产地 二 "法 国 " 
1.92% 商品 产地 = 二 "意大利 ” 性 别 ==" 女 " 
1.67% 香 调 一 "混合 香 调 " 性 别 =" 女 " 
1.58% 分 类 一 " 淡 香 水 EDT" 商品 产地 王 "意大利 " 
1.54% 香 调 一 " 花 果 香 调 ” 商品 产地 = "意大利 " 
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续 表 
链接 字段 1 字段 2 
1.03% 商品 名 称 三 "古驰" 性 别 一 " 女 " 
0.98% 香 调 一 "混合 香 调 " 分 类 一" 淡 香 水 EDT" 
0.98% 香 调 一 "混合 香 调 " 商品 产地 一 "法 国 " 
0.94% 商品 名 称 二 " 博 柏 利 " 品 产 地 二 "法 国 " 
0.92% 商品 名 称 二 " 博 柏 利 " 性 别 =" 女 " 
0.85% 商品 产地 二 "美国 " 性 别 =: 妇 - 
0.83% 商品 名 称 二 "古驰 " 品 产地 二 "法 国 " 
0.79% 商品 名 称 二 "范思哲 " 性 别 一 " 女 ” 
0.77% 商品 名 称 二 " 博 柏 利 " 香 调 一 " 花 果 香 调 " 
0.75% 香 调 一 " 花 果 香 调 " 商品 产地 二 "美国 " 
0.75% 商品 名 称 三 "范思哲" 商品 产地 二 "意大利" 
0.75% 商品 名 称 三 "古驰 " 香 调 一 " 花 果 香 调 " 











对 照 表 3. 2 和 图 3. 11, 可 以 看 出 香水 香 调 为 花 果 香 调 、 香 水 分 类 为 淡 香 水 EDT、 性 别 为 
女 的 链接 关系 占据 高 位 ,法 国 的 香水 也 与 女性 的 链接 关系 比较 高 。 这 表明 了 女性 用 户 更 加 
青睐 法 国产 花 果 香 调 淡 香 水 EDT 类 型 的 香水 ,而 且 花 果 香 调 的 香水 与 淡 香 水 EDT 类 型 更 
加 搭配 。 


3.10 热 图 


热 图 是 一 种 表现 数据 热点 的 图 形 ,以 区 域 和 颜色 等 视觉 效果 ,形象 地 表现 数据 的 密度 、 
频率 及 热点 等 特征 。 热 图 的 热 字体 现在 图 形 表达 时 ,其 数据 热度 等 信息 一 般 以 火焰 色彩 表 
示 ,展现 出 极 强 的 视觉 表达 力 。 

热 图 是 以 区 域 颜色 深浅 效果 来 展现 数据 特征 ,因而 , 热 图 表达 的 仅仅 是 数据 之 间 的 大 概 
关系 ,并 不 能 精确 展现 数据 频率 、 热 度 等 特征 。 

热 图 可 以 看 作 是 地 图 的 增强 版 。 地 图 展现 的 是 数据 与 地 理 位 置 之 间 的 关系 ,而 热 图 则 
是 将 地 理 位 置 广义 化 ,以 不 同 的 区 域 块 来 区 别 。 

在 Web 领域 , 热 图 被 用 来 检测 页 面 的 哪些 部 分 对 顾客 具有 吸引 力 。 其 原理 是 : 记录 用 
户 点 击 的 区 域 ,以 热 图 的 形式 展现 出 用 户 得 到 点 击 区 域 , 然 后 根据 具体 情况 对 页 面 设计 进行 
调整 ,设计 出 更 具 用 户 友好 型 的 网 站 。 在 其 他 领域 , 热 图 也 有 很 广泛 的 应 用 ,天 气 预报 中 的 
气温 图 就 是 典型 的 热 图 。 

下 面 结 合 香水 案例 来 了 解 热 图 。 香 水 的 评价 量 在 一 定 程度 上 反映 香水 的 销售 量 ,以 香 
水 平均 评价 为 度量 ,以 商品 名 称 及 香 调 为 维度 ,使 用 SAP Lumira 来 绘制 热 图 ,如 图 3. 12 所 示 。 

分 析 图 3. 12 ,该 热 图 表现 的 是 香水 品牌 的 各 香 调 类 型 香水 的 评价 量 (销售 量 ) 分 布 热 
点 。 各 香水 品牌 的 香 调 类 型 主要 是 花 果 香 调 类 型 和 混合 香 调 类 型 ,其 平均 评价 量 热 点 分 布 
主要 是 0 一 15 000 的 水 平 。 其 中 , 卡 文 克 莱 及 香奈 儿 拥 有 大 多 数 香水 香 调 类 型 , 且 香 奈 儿 香 
调 类 型 香水 的 平均 评价 较 高 ,而 卡 文 克 莱 的 平均 评价 较 低 ,反映 了 香奈 儿 香 水 的 销量 高 , 卡 
文 克 莱 的 销售 量 较 低 。 
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评价 ( 按 商 品名 称 、 香 调 ) 


香 调 


花 果 香 调 ， 
混合 香 调 


花 果 香 调 ， 
东方 香 调 


花 果 香 调 























东方 香 调 

















































































































图 3.12 热 图 


评价 

[0; 15000] 
a [15000; 30000] 
a [30000; 45000] 
mm [45000; 60000] 
m [60000; 75000] 
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数据 挖掘 可 以 理解 为 从 数据 中 挖掘 出 正确 的 有 用 的 、 未 知 的 ,综合 的 知识 。IBM SPSS 
Modeler 包含 数据 获取 数据 预 处 理 ,数据 建 模 、 评 估 和 部 署 等 一 系列 步骤 的 组 件 , 分 析 人 员 
可 通过 拖 放 的 方式 组 合 节点 完成 数据 挖掘 流程 。 

由 于 业务 问题 的 提出 与 理解 需要 数据 分 析 师 人 工分 析 , 目 前 数据 挖掘 软件 还 很 难 自动 
化 ,因此 本 章 主要 介绍 数据 挖掘 工具 IBM SPSS Modeler 常用 组 件 。 这 种 工具 基本 不 需要 
编程 (18. 1 版 本 补充 了 Python 组 件 ,与 18 版 本 的 R 组 件 一 起 可 以 方便 用 户 编程 实现 一 些 
分 析 功能 ,提高 了 挖掘 系统 的 灵活 性 ) ,比较 适合 不 喜欢 编程 或 不 会 编程 的 数据 爱好 者 ,尤其 
是 业务 人 员 。 但 要 熟练 使 用 IBM SPSS Modeler, 也 需要 了 解 常用 的 统计 操作 和 数据 挖掘 算 
法 ,这 样 才 可 能 选择 合适 的 组 件 搭建 数据 挖掘 流程 。 


4.1 数据 预 处 理 组 件 


数据 预 处 理 对 数据 挖掘 的 效果 起 着 至 关 重要 的 作用 。 好 的 数据 预 处 理 能 为 数据 挖掘 提 
供 高 质量 的 数据 ,是 数据 挖掘 成 功 的 重要 保证 ,但 现实 的 数据 中 往往 存在 不 完整 .异常 和 不 
一 致 的 记录 ,这 就 对 提高 数据 质量 提出 了 很 高 的 要 求 。 数 据 质 量 包 括 准 确 性 、 完 整 性 、 一 致 
性 、 时 效 性 、 可 信 性 和 可 解释 性 ,在 对 数据 预 处 理 的 过 程 中 ,需要 紧 紧 围 绕 上 述 要 求 展开 。 
在 实际 的 数据 处 理 中 ,我 们 对 数据 的 清理 、 集 成 .选择 .变换 并 没有 严格 区 分 ,更 多 是 为 
了 逻辑 和 思维 上 的 清晰 来 对 节点 进行 分 类 。 在 实际 业务 处 理 中 ,往往 是 各 种 处 理 技术 混合 
使 用 ,并 没有 严格 区 分 。 


4.1.1 数据 清理 组 件 
数据 清理 包括 填补 空 值 ,剔除 噪声 .识别 .删除 离 群 点 。 甚 重要 性 在 于 ,如 果 数 据 是 “ 脏 ” 
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的 , 则 在 学 习 的 过 程 中 ,会 使 模型 向 错误 方向 倾斜 ,丢失 重要 信息 ,甚至 完全 陷 人 混乱 ,并 且 
可 能 挖 出 完全 没有 意义 的 知识 ,甚至 最 后 出 现 无 效 的 、 错 误 的 结论 。 

1. 区 分 节点 侠 
区 分 节点 的 作用 是 去 除数 据 库 中 重复 的 数据 。 废 弃 重复 记录 的 第 一 个 记录 ,将 部 分 重 
复 的 数据 扔 到 数据 流 中 。 
区 分 节点 的 使 用 方式 有 3 种 : 

(1) 为 每 个 组 创建 一 个 组 合 记录 。 可 以 根据 需求 指定 如 何 分 组 ,如 何 创建 组 合 记录 。 

(2) 仅 包 含 表 头 。 在 一 些 数据 中 ,常常 有 一 个 汇总 的 表 头 ,删除 其 余 的 详细 数据 。 

(3) 删除 表 头 。 对 数据 进行 细微 分 析 时 ,删除 汇总 的 表达 ,对 数据 的 内 部 结构 进行 仔细 
分 析 。 

(4) 关键 字段 区 分 ,设置 一 些 关键 字 , 当 数据 中 有 这 些 关键 字 时 ,对 此 数据 进行 区 分 。 

2. 填充 节点 全 

填充 节点 是 按 条 件 补充 数据 和 存储 类 型 。 可 以 用 一 些 特定 的 规则 来 替换 特殊 值 或 者 空 
值 。 例 如 ,用 0 值 填充 NULL。 

填充 节点 通常 和 类 型 节点 组 合 使 用 ,以 替换 空 值 。 其 用 法 : 使 用 字段 选择 器 从 数据 中 
选 出 要 查找 的 字段 ,然后 在 替换 选项 中 选择 替换 方法 。 可 以 是 基于 条 件 的 ,根据 指定 条 件 ， 
进行 替换 。 

3. 过 滤 节 点 人 @) 

过 滤 节 点 可 过 滤 多 余 字段 数据 .并 在 此 节点 对 数据 属性 等 进行 一 些 更 改 ,使 数据 更 “ 干 
净 ”, 提 升 数据 质量 和 建 模 效率 。 

过 滤 选 项 中 使 用 的 表格 ,可 以 呈现 每 个 字段 进入 和 输出 节点 时 的 名 称 , 可 以 对 重复 的 或 
者 不 需要 的 字段 进行 重 命名 或 者 删除 。 例 如 ,对 用 户 编号 .产品 编号 等 无 意义 字段 进行 
过 滤 。 


4.1.2 数据 集成 组 件 


数据 集成 指 合并 来 自 多 个 数据 存储 源 的 数据 ,有 助 于 减少 数据 的 重复 和 不 一 致 ,从 而 提 
高 数据 的 质量 ,并 优化 模型 的 准确 性 和 运算 效率 。 其 中 ,数据 集成 还 涉及 数据 值 冲 突 时 的 检 
测 与 处 理 。 

E 汇总 节点 侠 

汇总 节点 是 对 记录 ( 行 ) 进 行 操作 的 节点 ,作用 是 对 各 字段 进行 加 总 ,合计 、 取 均值 等 操 
作 。 处 理 汇 总 操作 后 可 以 增加 新 的 字段 ,但 是 在 汇总 之 前 要 对 记录 进行 预 处 理 ,将 缺失 值 进 
行 处 理 ,否则 对 汇总 结果 造成 影响 ,最 终 分 析 结论 产生 较 大 误差 。 

2. 合并 节点 全 

合并 节点 的 作用 是 合并 多 个 输入 数据 ,并 输出 包含 某 些 关键 字段 数据 的 输出 。 合 并 节 
点 广泛 使 用 在 不 同 数据 源 的 合并 和 集成 ,避免 重复 数据 。 

合并 节点 一 般 有 3 种 方式 : 按 关键 字 合 并 , 按 关 键 字 编 号 进行 内 连 ,外 连 等 合并 ; 
@ 按 指定 条 件 合并 ,在 节点 设置 中 设置 相应 的 条 件 , 对 满足 条 件 的 数据 执行 合并 ; @ 按 重要 
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性 合并 ,例如 ,在 数值 累加 的 情况 下 ,一 些 对 结果 影响 过 小 的 数据 ,在 合并 中 适当 忽略 。 

3. 追加 节点 侠 

追加 节点 是 将 一 个 源 中 的 数据 传递 到 下 游 流 程 中 ,作用 是 连接 各 组 记录 ,合并 类 似 结构 
的 数据 ,所 以 ,各 源 的 字段 类 型 需要 一 臻 , 即 分 类 类 别 无 法 追加 到 连续 字段 中 。 如 果 是 数据 
结构 不 同 的 数据 集 , 则 没 太 大 作用 。 


4.1.3 数据 选择 组 件 


数据 选择 可 以 用 来 得 到 数据 集 的 简化 表示 ,虽然 数据 容量 上 小 得 多 ,但 是 能 够 保持 数据 
的 完整 性 ,规避 数据 宛 余 ,并 产生 同样 的 分 析 效 果 。 

1. 选择 节点 兮 

选择 节点 可 以 从 一 些 数据 库 ( 或 数据 流 ) 中 ,根据 特定 的 某 个 条 件 ,选择 出 一 些 符合 特定 
要 求 的 数据 ,独立 地 呈现 在 输出 中 。 

选择 条 件 可 以 用 CLEM 进行 指定 ,在 窗口 中 可 以 输入 函数 ,来 选择 符合 条 件 的 数据 。 
例如 ,选择 valuel 的 条 件 : (var= "valuel)) 。 再 如 ,删除 空 值 的 数据 的 条 件 函 数 : not (@NULL 
(varl) and @NULLCvar2) ) 。 

2. 样本 节点 全 

样本 节点 可 对 庞大 的 数据 进行 抽样 ,用 于 提高 计算 性 能 和 选择 对 应 数据 进行 专门 分 析 ， 
以 此 提高 效率 。 

其 优势 是 在 条 件 允 许 的 情况 下 ,对 抽样 样本 评估 可 以 提高 运行 效率 ; 可 以 选择 特定 的 
记录 或 者 交易 组 进行 分 析 。 例 如 ,对 偏离 值 分 析 ,或 者 对 购物 车 的 分 析 ; 可 以 对 指定 数据 或 
者 观测 值 进行 随机 数据 分 析 。 


4.1.4 数据 变换 组 件 


在 数据 预 处 理 中 ,数据 通常 被 变换 或 者 统一 格式 ,使 挖掘 过 程 耗费 时 间 更 短 , 更 有 效 ,更 
精确 。 通 常 ,数据 变换 的 方式 有 以 下 几 种 : 光滑 构造 特征 、 聚 集 、 规 范 化 分门别类 。 

1. 类 型 节点 全 

类 型 节点 是 非常 重要 的 节点 ,其 作用 是 对 指定 的 字段 元 数据 和 相应 的 属性 进行 更 改 , 可 
以 对 数据 的 测量 级 别 和 属性 进行 过 滤 、 修 改 。 此 外 ,还 可 以 设置 控制 选项 .字段 建 模 、 制 定 标 
签 .指定 值 等 。 

2. 平衡 节点 傅 

平衡 节点 主要 针对 特别 分 散 的 数据 ,可 以 遵循 指定 的 系数 条 件 ,调整 数据 不 集中 的 比 
例 。 平 衡 是 通过 复制 记录 或 随机 删除 的 方法 来 实现 的 ,所 以 ,每 次 运行 其 结果 集 并 不 固定 。 
一 般 要 选中 * 仅 平衡 训练 数据 ,特别 是 在 遇 到 不 平衡 检验 或 验证 分 区 得 分 时 ,当然 ,如 果 流 
中 不 存在 分 区 字段 , 则 此 选项 无 效 。 

3. 导出 节点 全 

导出 节点 的 作用 是 修改 、 创 建新 字段 ,导出 的 形式 包括 标志 、 状 态 .条 件 . 计 数 和 公式 等 ， 
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可 以 导出 单个 或 多 个 字段 。 

导出 多 个 字段 时 ,可 以 应 用 @FIELD 函数 ,并 结合 公式 在 不 指定 固定 字段 的 情况 下 同 
时 生成 多 个 字段 ,并 且 可 指定 新 字段 的 命名 规则 。 

4. 分 级 节点 铺 

分 级 节点 的 作用 是 将 连续 数值 离散 化 ,将 连续 变量 字段 的 值 自动 分 级 成 多 个 新 的 分 类 
字段 。 此 种 方法 在 决策 树 中 应 用 广泛 ,例如 ,成 绩 是 连续 变量 ,应 用 分 级 节点 ,把 成 绩 分 为 优 
秀 、 良 好 中等. 较 差 , 很 差 等 多 级 。 

一 般 在 以 下 几 种 环境 中 应 用 分 级 ， 

(1) 模型 性 能 。 针 对 一 些 对 连续 变量 处 理 效果 不 佳 的 算法 模型 ,非常 有 必要 运用 分 级 
节点 ,如 决策 树 .Logistic 等 。 运 用 分 级 节点 ,会 大 大 增加 模型 准确 度 。 

(2) 算法 要 求 。 某 些 特定 的 算法 要 求 将 输入 进行 分 类 ,如 朴素 贝 叶 斯 \ 逻 辑 回归 。 

(3) 数据 隐私 。 人 敏感 信息 ,保护 个 人 隐私 ,如 收入 .身份 证 号 等 。 


4.2 数据 挖掘 建 模 组 件 


数据 挖掘 模型 是 一 系列 规则 公式 或 方程 组 ,可 以 根据 多 组 输入 或 者 变量 来 预测 输出 或 
者 进行 分 类 , 聚 类 ,关联 或 者 回归 等 分 析 。 在 何 种 情况 下 选择 何 种 数据 挖掘 模型 至 关 重 要 。 
SPSS Modeler 中 集成 了 目前 主流 的 数据 挖掘 方法 ,可 以 很 方便 地 依照 数据 特点 生成 预测 模 
型 ,并 将 其 应 用 于 商业 活动 中 ,从 而 改进 商业 决策 过 程 。 


4.2.1 模型 租 选 


在 数据 预 处 理 完毕 之 后 ,通常 还 要 做 一 步 数据 准备 工作 , 即 特征 选择 和 异常 检测 ,按照 
重要 性 对 变量 进行 排序 ,并 将 异常 数据 剔除 。 特 征 选择 和 异常 检测 可 以 组 合 使 用 。 

1. 特征 选择 合 

在 数据 挖掘 时 可 能 会 遇 到 大 量 的 备 选 变量 ,要 花费 大 量 的 时 间 和 精力 来 对 这 些 变量 进 
行 分 析 , 使 用 特征 选择 算法 来 识别 重要 的 变量 就 变 得 尤为 重要 。 通 过 把 注意 力 集中 到 最 重 
要 的 变量 上 ,可 以 忽略 无 效 计算 ,有 效 降 低 计算 量 , 加 快 计算 速度 ,并 提高 运算 效率 。 

2. 异常 检测 合 

异常 检测 节点 的 作用 在 于 发 现 离 群 点 ,针对 那些 不 符合 正常 规律 数据 模式 的 离 群 点 进 
行 确认 。 异 常 检 测 通常 是 检测 大 量变 量 后 ,识别 相似 记录 所 属 的 聚 类 或 对 等 组 ,然后 将 数据 
与 组 内 数据 进行 比较 ,以 识别 异常 值 。 观 测 值 离 聚 类 中 心 越 远 , 越 有 可 能 是 异常 点 。 


4.2.2 自动 建 模 


自动 建 模 的 节点 可 以 对 多 个 算法 进行 自动 评估 和 比较 ,按照 某 种 结果 评价 标准 进行 排 
序 ,减少 用 户 的 手动 操作 工作 量 , 可 以 快速 验证 多 种 模型 ,并 可 对 某 一 模型 进行 参数 设置 和 
选项 配置 。 
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1. 自动 分 类 器 贸 

自动 分 类 器 节点 使 用 多 种 不 同 的 方法 来 估算 和 比较 目标 模型 ,可 以 在 一 次 建 模 运行 中 
尝试 多 种 方法 。 可 以 选择 所 用 算法 ,并 试验 选项 的 多 个 组 合 。 例 如 ,无 须 为 神经 网 络 选择 快 
速 .动态 或 修剪 中 的 某 个 方式 ,完全 可 以 全 部 尝试 。 该 节点 将 探究 每 种 可 能 的 选项 组 合 ， 
根据 指定 的 测量 对 每 个 候选 模型 进行 排序 ,然后 保存 最 佳 模型 ,以 用 于 评分 或 进一步 分 析 。 

2. 自动 数值 印 

自动 数值 节点 使 用 多 种 不 同方 法 来 估算 和 比较 模型 ,以 得 出 连续 数值 范围 结果 ,可 在 一 
次 建 模 运行 中 尝试 多 种 方法 。 可 以 选择 所 用 算法 ,并 试验 选项 的 多 个 组 合 。 例 如 ,可 以 使 用 
神经 网 络 .线性 回归 .CART 和 CHAID 模型 预测 住房 价值 ,以 确定 哪 种 模型 的 性 能 最 好 ,并 
且 可 以 尝试 步 进 、 向 前 和 向 后 回归 法 的 不 同 组 合 。 节 点 研究 选项 的 每 个 可 能 组 合 ,根据 指定 
的 测量 为 每 个 候选 模型 排序 ,并 保存 最 佳 模型 ,用 于 评分 或 将 来 的 分 析 。 

3. 自动 果 类 多 

自动 聚 类 节点 是 通过 评估 和 比较 来 识别 具有 类 似 特征 记录 组 的 聚 类 模型 。 节 点 的 工作 
方式 与 其 他 自动 建 模 节点 相同 ,可 以 在 一 次 建 模 运行 中 试验 多 个 选项 组 合 。 模 型 可 使 用 基 
本 默认 参数 进行 比较 ,以 尝试 过 滤 聚 类 模型 的 有 效 性 以 及 对 其 进行 排序 ,并 提供 一 个 排序 依 
据 , 如 轮廓 、 聚 类 数 . 最 小 (大 ) 聚 类 大 小 、 聚 类 大 小 .评估 字段 重要 性 等 。 


4.2.3 决策 树 模型 


决策 树 模型 是 指 可 以 根据 可 解释 的 决策 规则 ,对 未 来 的 观测 值 进行 预测 或 分 类 的 分 类 
系统 。 其 模型 的 优点 有 : 

(1) 决策 树 推理 的 模型 具有 非常 清晰 的 逻辑 。 

(2) 决策 树 推理 的 模型 只 具有 真正 影响 决策 的 属性 。 

(3) 区 分 方式 可 以 转换 成 IF-THEN 规则 集合 。 

(4) 可 以 观察 出 如 何 根据 属性 将 总 体 分 割 或 分 区 成 相关 子 集 。 

1. 分 类 和 回归 树 例 

分 类 和 回归 树 节点 (CART) ,可 以 用 于 预测 或 分 类 未 来 观测 值 的 决策 树 。CART 算法 
使 用 了 一 种 Gini 指数 (不 纯度 函数 ) 来 度量 数据 集中 度 ,首先 计算 各 个 属性 的 纯度 增 量 , 然 
后 选取 纯度 增 量 最 大 的 属性 , 拆 分 数据 集 ,所 有 分 割 均 为 二 元 分 割 。 

2. CHAID 忆 点 狼 

CHAID 节点 (Chi-squared Automatic Interaction Detector) 使 用 卡 方 作 为 度量 统计 学 
显著 性 的 方法 , 较 高 的 卡 方 值 表 示 用 某 属 性 拆 分 决策 树 时 ,可 以 把 样本 集 拆 分 为 有 显著 分 布 
差异 的 分 组 。 

算法 的 核心 思想 是 : 根据 结果 变量 与 解释 变量 对 样本 进行 最 优 分 割 ,按照 卡 方 检 验 的 
结果 进行 多 元 列 联 表 的 自动 判断 分 组 。 

CHAID 算法 的 优势 是 可 以 生成 非 二 元 树 , 即 有 些 可 以 分 割 成 多 于 两 个 的 分 支 。 因 此 ， 
与 二 元 生成 方法 相 比 ,CHAID 倾向 于 范围 更 广 的 树 。CHAID 适用 于 所 有 类 型 的 输入 变 
量 ,并 能 接受 权重 和 频率 变量 。 
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3. QUEST 会 

QUEST 是 Quick Unbiased Efficient Statistical Tree 的 缩写 ,是 用 于 构建 二 元 分 类 的 
决策 树 。 设 计 目 的 是 减少 大 型 CART 分 析 所 需 的 处 理 时 间 , 也 减少 发 现 的 趋势 ,以 便 支持 
多 个 分 割 的 输入 ,所 有 分 割 都 必须 是 二 元 的 。 

4. C5.0 决策 树 侠 

C5.0 的 核心 思想 是 : 根据 每 个 级 别提 供 最 大 信息 增益 的 字段 分 割 样本 ,在 分 割 节点 的 
选择 上 可 以 进行 多 次 多 于 两 个 的 分 割 。C5. 0 算法 的 优势 是 : 缺少 数据 以 及 存在 大 量 输入 
字段 等 问题 时 ,C5. 0 模型 的 表现 十 分 稳健 , 且 不 需要 花费 过 长 的 时 间 。 模 型 的 结果 更 易于 
理解 。 此 外 ,C5.0 还 有 增强 方法 来 提高 分 类 的 准确 性 。 

5. 随机 森林 仆 

随机 森林 节点 是 一 种 基于 树 的 分 类 和 预测 方法 ,此 方法 根据 分 类 和 回归 方法 构建 。 与 
CART 类 似 , 此 预测 方法 使 用 递归 分 区 将 训练 记录 拆 分 为 具有 相似 输出 字段 值 的 段 。 首 
先 ,此 节点 通过 检查 可 供 其 使 用 的 输入 字段 来 查找 最 佳 分 割 。 分 割 可 定义 两 个 子 组 ,其 中 每 
个 子 组 随后 又 分 割 为 两 个 子 组 ,以 此 类 推 ,直到 触发 其 中 一 项 停止 标准 为 止 。 所 有 分 割 都 是 
二 元 的 ( 仅 有 两 个 子 组 )。 


4.2.4 贝 叶 斯 网 络 模型 


贝 叶 斯 定理 是 一 种 把 先 验 知 识 与 样本 中 得 到 的 新 信息 相 结合 的 统计 方法 。 贝 叶 斯 网 络 
侠 是 一 种 基于 贝 叶 斯 定理 的 图 形 模型 ,可 以 显示 数据 集中 的 变量 以 及 概率 ,还 能 显示 这 些 
变量 之 间 的 条 件 和 独立 性 。 

选用 贝 叶 斯 网 络 可 以 了 解 因 果 关 系 ,可 避免 过 拟 合 ,可 清晰 观测 到 逻辑 视图 。 常 用 的 结 
构 有 TAN 和 马尔 科 夫 覆盖 。 

TAN: 树 结构 朴素 贝 叶 斯 模型 是 简单 的 贝 叶 斯 网 络 模型 ,该 模型 除了 随 目标 变量 变化 
外 ,还 随 其 他 预测 变量 变化 ,因此 增加 了 多 维 因 素 的 准确 率 。 

马尔 科 夫 覆盖 : 常用 于 数据 集中 的 节点 的 集合 。 马 尔 科 夫 和 获 盖 基本 上 包含 了 与 预测 目 
标 变量 相关 的 所 有 变量 ,上 一 维和 下 一 维 。 但 是 , 当 处 理 大 规模 数据 集 时 ,会 由 于 变量 过 多 ， 
耗费 过 多 的 处 理 时 间 。 


4.2.5 神经 网 络 模型 


类 神经 网 络 是 模拟 人 类 的 神经 元 结构 ,形成 输入 层 、 隐 藏 层 .输出 层 , 来 模拟 人 脑 处 理 信 
息 的 简易 模型 ,模拟 大 量 类 似 于 神经 元 的 物质 互联 处 理 信息 。 自 变量 和 因 变 量 之 间 的 关系 
是 在 模型 学 习 的 过 程 中 确立 的 ,可 以 是 线性 的 ,也 可 以 是 非 线性 的 ,非常 灵活 ,其 缺点 是 对 规 
则 的 解释 性 较 差 。 

神经 网 络 钰 包含 3 层 : 输入 层 , 输 入 外 界 信息 ,影响 因素 的 变量 ; 隐藏 层 ,经 过 输入 层 


的 权重 变化 之 后 的 函数 变换 ,再 变化 权重 至 输出 层 , 类 似 于 大 脑 的 思考 过 程 ,判断 哪 种 因素 
更 重要 ; 输出 层 , 即 需要 预测 和 判断 的 目标 。 网 络 通过 不 断 地 学 习 过 程 , 当 预测 结果 与 样本 
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目标 不 一 致 时 ,调整 权重 。 
4.2.6 支持 向 量 机 模型 


支持 向 量 机 (SVM) 是 一 种 分 类 和 回归 技术 ,应 用 非常 广泛 ,特别 是 ,在 小 样本 集中 也 能 
得 到 较 好 的 结果 ,其 特点 是 自 变量 数目 较 多 时 也 不 会 出 现 维 数 灾难 。 

1. 支持 向 量 机 会 

支持 向 量 机 具有 坚实 的 统计 学 理论 基础 。 它 的 核心 思想 是 用 两 类 线性 可 分 问题 来 说 明 
可 以 找到 一 个 超 平面 ,该 超 平面 可 以 把 训练 样本 分 为 两 类 。 分 类 间隔 是 离 超 平面 最 近 的 样 
本 , 且 平行 于 最 优 超 平面 的 两 个 超 平面 。 

2. 线性 支持 向 量 机 依 

线性 支持 向 量 机 (CLSVM) 节点 可 以 使 用 线性 支持 向 量 机 对 数据 进行 分 类 。LSVM 特 
别 适用 于 大 型 数据 集 , 即 具有 大 量 预 测 变量 字段 的 数据 集 。 可 以 对 节点 使 用 默认 设置 ,以 便 
相对 较 快 地 生成 基本 模型 ,也 可 以 使 用 构建 选项 来 试用 不 同 的 设置 。LSVM 节点 类 似 于 
SVM 节点 ,但 它 是 线性 的 ,更 擅长 处 理 大 量 记录 。 


4.2.7 时 间 序 列 模型 


时 间 序 列 是 指 在 不 同时 间 上 的 观察 值 或 事件 组 成 的 序列 。 时 间 序 列 建 模 方法 假定 历史 
会 重演 。 即 使 不 完全 一 样 ,也 会 非常 接近 。 

1. 时 间 序列 全 

时 间 序 列 的 数据 通常 具有 以 下 几 种 特征 : 趋势 .周期 运动 .季节 性 变化 .不 规则 运动 。 
“时 间 序 列 ” 节 点 可 以 在 本 地 或 分 布 式 环境 中 与 数据 配合 使 用 ; 在 分 布 式 环境 中 ,可 以 利用 
IBM SPSS Analytic Server 的 能 力 。 通 过 此 节点 ,可 以 选择 对 时 间 序 列 的 指数 平滑 法 模型 、 
单 变 量 自 回 归 积 分 移动 平均 值 ( ARIMA) 及 多 变量 ARIMA( 或 转换 函数 ) 模 型 进行 估计 和 
构建 ,并 根据 时 间 序 列 数 据 产 生 预 测 。 

2. STP 模型 侠 

STP 是 时 间 - 空 间 预测 的 缩写 ,通过 对 时 间 和 空间 中 的 指标 进行 测量 ,来 分 析 预 测 某 一 
时 间 点 的 指标 值 ,模型 需要 指定 位 置 数据 .输入 变量 .时 间 变 量 和 目标 字段 等 数据 ,其 中 目标 
变量 只 能 为 连续 型 变量 ,位 置 类 型 只 能 为 地 理 空间 字段 ,时 间 变量 要 预 处 理 为 具有 固定 间隔 
的 索引 字段 ,也 可 以 在 模型 的 时 间 区 间 中 指定 。 


4.2.8 统计 模型 


统计 模型 使 用 统计 分 析 方法 ,从 数据 中 挖掘 有 用 的 信息 。 在 样本 够 大 和 特定 的 情况 下 ， 
统计 方法 可 以 非常 快速 地 给 出 合适 的 模型 。 

1. 线性 模型 傅 

线性 模型 通过 构建 目标 变量 和 预测 变量 之 间 的 线性 关系 来 预测 连续 目标 的 变化 。 线 性 
模型 相对 简单 ,用 于 评分 的 数学 公式 也 易于 解释 。 与 其 他 模型 类 型 相 比 ,其 属性 易于 理解 ， 
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并 且 可 以 进行 快速 构建 。 

2. 回归 模型 便 

回归 模型 是 一 种 对 统计 关系 进行 定量 分 析 的 模型 ,用 于 构建 目标 变量 和 预测 变量 之 间 
的 关系 ,线性 回归 通过 拟 合 预测 输出 值 与 实际 输出 值 之 间 的 差异 最 小 化 直线 或 者 曲面 ,来 达 
到 预测 的 目标 。 此 模型 的 优势 是 形成 预测 的 数学 公式 易于 理解 , 且 训 练 速度 非常 快 。 

模型 中 的 变量 只 能 为 数值 型 变量 ,如 果 目 标 字段 为 非 连续 型 变量 ,可 以 使 用 逻辑 回归 来 
代替 。 模 型 构建 方法 中 的 进入 法 不 对 输入 字段 作 任何 处 理 , 步 进 法 .后 退 法 .前进 法 将 对 输 
入 字段 进行 优化 。 

3. 逻辑 回归 模型 全 

逻辑 回归 是 一 种 常用 的 统计 学 方法 ,是 根据 输入 值 对 记录 进行 分 类 的 统计 方法 , 相 比 于 
线性 回归 ,其 分 类 目标 是 可 以 为 类 型 字段 , 按 目标 变量 类 型 可 应 用 二 项 式 或 多 项 式 算法 。 

逻辑 回归 的 优点 是 : 通常 模型 比较 准确 ,可 以 处 理 符号 或 者 数值 型 数据 。 可 以 完整 地 
给 出 所 有 目标 的 预测 概率 ,以 比较 次 优选 项 。 处 理 超大 型 数据 集 时 ,可 以 禁用 高 级 输出 先 
项 ,如 似 然 比 检验 等 , 改 用 Wald 统计 量 和 评分 统计 量 ,从 而 提高 性 能 ,减少 建 模 时 长 。 

4. 主 成 分 分 析 会 

主 成 分 分 析 提供 了 降低 数据 复杂 程度 的 数据 压缩 技术 。PCA 方法 是 通过 正 交 变 换 将 
一 组 可 能 存在 相关 关系 的 输入 变量 转换 为 不 相关 ,转换 后 的 组 合 即 为 主 成 分 ,PCA 集中 分 
析 所 有 方差 来 度量 信息 量 的 大 小 。 另 外 的 因子 分 析 方 法 , 则 尝试 识别 相关 性 最 大 的 因子 ,其 
只 关注 共享 方差 。 这 两 种 方法 目标 都 是 找 出 原始 数据 中 信息 集中 的 最 重要 因素 。 

5. 广义 线性 引擎 模型 会 

广义 线性 引擎 (GLE) 模 型 通过 构建 关联 函 数 确认 自 变量 和 因 变 量 的 相关 关系 ,该 模型 
的 优势 是 允许 因 变 量 非 正 态 分 布 。 它 涵盖 了 广泛 使 用 的 统计 模型 ,如 用 于 正 态 分 布 响应 的 
线性 回归 、 用 于 二 进 制 数据 的 逻辑 模型 .用 于 计数 数据 的 对 数 线性 模型 .用 于 区 间 删 失 生 存 
数据 的 互补 重 对 数 模 型 以 及 其 他 统计 模型 。 

6. 广义 线性 模型 合 

广义 线性 模型 对 一 般 线性 模型 进行 了 扩展 ,这 样 因 变 量 通 过 指定 的 关联 函数 与 因子 和 
协 变量 线性 相关 。 而 且 , 该 模型 还 允许 因 变量 为 非 正 态 分 布 , 它 包 括 统计 模型 大 部 分 的 功 
能 ,其 中 包括 线性 回归 逻辑 回归 ,用 于 计数 数据 的 对 数 线性 模型 ,以 及 区 间 删 失 生 存 模型 。 

7. 广义 线性 混合 模型 全 

广义 线性 混合 模型 (GLMMD) 扩 展 了 线性 模型 ,使 得 目标 可 以 有 非 正 态 分 布 ,通过 指定 
的 关联 函数 与 因子 和 协 变量 线性 相关 ,并 且 观 测 值 可 能 相关 。 广 义 线性 混合 模型 涵盖 了 从 
简单 线性 回归 到 复杂 的 非 正 态 纵向 数据 多 变量 模型 的 各 种 模型 。 

8. COX 回归 节点 会 

COX 回归 节点 可 以 在 已 有 的 检查 记录 中 建立 时 间 事 件 的 生存 模型 。 该 模型 会 生成 一 
个 生存 函数 ,该 函数 可 预测 在 给 定时 间 (z) 内 对 于 所 给 定 的 输入 变量 值 相关 事件 的 发 生 
概率 。 
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4.2.9 聚 类 模型 


聚 类 分 析 是 一 种 把 数据 集 划分 成 子 集 的 过 程 。 每 一 个 子 集 构成 一 个 簇 ,使 簇 之 间 的 元 
素 彼 此 相似 ,但 簇 与 簇 之 间 的 元 素 又 尽 可 能 地 彼此 不 相似 。 相 异 度 是 根据 描述 对 象 的 属性 
值 进 行 计算 的 ,距离 经 常 采 用 相 异 度 度量 方式 。 通 常 把 一 个 簇 内 的 对 象 作为 一 个 整体 对 待 。 
通常 把 聚 类 模型 称 为 无 监督 模型 ,因为 不 存在 用 于 判断 分 类 结果 的 标准 。 

1.K-means 算法 合 


K-means 算法 将 数据 集聚 类 到 不 同 分 组 。 其 中 , 相 异 度 基 于 对 象 与 徐 中 心 的 距离 计算 ， 
与 儿 中 心 距 离 越 近 的 对 象 可 以 划分 为 一 位。 此 算法 的 目标 是 每 个 对 象 与 簇 中 心 的 距离 平方 
和 最 小 。 通 过 不 断 迭 代 , 进 一 步 优化 ,直到 聚 类 中 心 不 再 改变 时 ,说 明 取 到 了 最 优 解 , 即 KK 
的 中 心 。 

2，Kohonen 算法 便 

Kohonen 算法 是 一 种 对 数据 集 进 行 聚 类 的 神经 网 络 ,将 数据 集中 明显 不 同 的 类 聚集 到 
不 同 组 中 ,训练 完成 后 ,相似 点 便 已 经 聚集 , 异 得 点 远离 ,其 优势 是 采用 无 监督 学 习 的 方式 ， 
对 成 员 变 量 个 数 .资格 等 没有 要 求 ,也 不 需要 指定 目标 字段 。 

3. 两 步 算法 侠 


两 步 算法 使 用 两 步 聚 类 方法 ,第 一 步 先 对 样本 数据 进行 简单 的 处 理 ,将 原始 数据 放置 到 
各 个 子 艇 类 中 ,第 二 步 使 用 层级 聚 类 的 方法 ,将 子 聚 类 逐步 合并 形成 最 大 的 簇 类 。 

两 步 法 的 优点 是 : 能 够 为 训练 数据 自动 估计 最 佳 聚 类 ,可 以 高 效 处 理 混合 型 的 字段 或 
者 较 大 量 数据 集 。 不 需要 指定 聚 类 的 数量 ,通过 检验 多 种 聚 类 方法 ,然后 取 其 中 最 有 效 的 一 
种 。 还 可 以 应 用 两 步 算法 来 检测 离 群 值 或 其 他 异常 值 。 


4.2.10 关联 分 析 


关联 是 指 在 两 个 或 多 个 变量 之 间 存 在 某 种 规律 性 ,但 关联 并 不 一 定 意味 着 因果 关系 。 
关联 规则 是 在 同一 事件 中 出 现 的 不 同 项 目的 相关 性 ,关联 分 析 是 挖掘 关联 规则 的 过 程 。 关 
联 规则 挖掘 的 核心 是 找 出 事务 数据 库 中 的 所 有 强 关联 规则 ,其 优点 是 对 输入 变量 没有 要 求 ， 
缺点 是 运行 效率 较 低 。 

1. Apriori 算法 合 


Apriori 算 法 的 思想 是 : 先 找 出 所 有 的 频繁 项 集 ,然后 由 频繁 项 集 产生 强 关联 规则 ,这 
些 规则 必须 满足 最 小 支持 度 和 最 小 置信 度 的 要 求 。Apriori 算法 的 优点 在 于 速度 通常 快 一 
些 。 同 时 ,Apriori 算法 提供 了 5 种 不 同 的 训练 方法 ,应 用 更 灵活 。 

2. 关联 规则 会 


关联 规则 节点 与 Apriori 节点 非常 类 似 . 但 是 存在 一 些 明显 的 差异 ,其 无 法 处 理事 务 性 
数据 ,只 能 处 理 存储 类 型 为 列表 的 数据 。 可 以 与 IBM SPSS Analytic Server 配合 处 理 大 型 
数据 。 参 数 设置 更 多 ,支持 较 多 个 性 化 设置 。 在 规则 构建 时 ,可 以 排除 某 些 已 经 很 明显 的 规 
则 ,减少 资源 浪费 。 如 果 输 入 字段 为 连续 类 型 ,可 以 使 用 离散 化 选项 (分 级 化 ) 进 行 分 箱 , 输 
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出 规则 表 时 除了 支持 度 和 置信 和 度 外 ,还 可 以 选择 条 件 支持 、 部 署 能 力 ,增益 等 ,其 中 置信 和 度 作 
为 默认 规则 排序 标准 ,可 在 模型 选项 中 对 此 进行 更 改 ,最 大 预测 数 表示 最 佳 的 预测 规则 数 
量 , 默 认为 3 个 。 

3. CARMA 算法 会 

CARMA 节点 使 用 关联 规则 算法 来 发 现 数据 中 的 关联 规则 。 与 Apriori 算法 相 比 ， 
CARMA 节点 不 需要 输入 变量 也 能 提取 规则 ,在 未 选中 事务 格式 时 要 求 提供 一 个 或 多 个 内 
容 字段 ,反之 ,要 提供 事务 标识 和 一 个 名 义 字段 。 

4. 序列 节点 会 

序列 模型 也 是 关联 分 析 的 一 种 , 它 可 以 从 连续 的 数据 中 发 现 模式 规律 ,或 者 在 面向 时 间 
的 数据 中 发 现 模式 。 在 模式 挖掘 过 程 中 ,其 算法 分 为 以 下 两 步 : 首先 发 现 常见 序列 , 即 频 繁 
出 现 的 序列 ,然后 在 线 生成 序列 模式 。 序 列 节 点 要 求 指定 一 个 编号 字段 或 时 间 字 段 ,至 少 一 
个 内 容 字段 ,这 些 可 以 在 字段 选项 卡 上 设置 。 由 于 序列 模型 采用 的 是 CARMA 算法 ,可 以 
在 “专家 ?选项 卡 中 设置 修剪 值 来 调整 修剪 频率 ,以 节省 内 存 占用 。 另 外 ,也 可 以 设置 内 存 中 
最 大 序列 选项 ,以 减少 内 存 占 用 ,但 是 这 个 数值 要 大 于 预期 的 结果 序列 数 。 


4.2.11 KNN 模型 
最 近邻 (KNN) 算 法 是 一 种 用 于 分 类 和 回归 的 监督 学 习 方法 ,其 采用 向 量 空间 模型 来 
分 类 。 


最 近邻 算法 会 根 据 观测 样本 与 其 他 样本 在 特征 空间 中 的 相似 程度 进行 分 类 。 在 机 器 


学 习 中 ,此 方法 不 需要 匹配 原 有 模式 或 样 例 即 可 识别 数据 的 模式 。 实 现 方法 是 : 将 靠近 彼 
此 的 点 视 为 相 邻 元 素 , 当 测试 样本 来 了 以 后 ,计算 其 到 每 个 观测 值 的 距离 。 最 近 距 离 点 的 分 
类 就 是 该 测试 样本 的 分 类 。 


4.2.12 数据 挖掘 模式 评估 


评估 节点 伪 的 作用 是 评估 和 比较 所 使 用 的 预测 模型 ,让 使 用 者 选择 最 适合 的 模型 , 评 
估 图 表 显 示 了 模型 对 特定 结果 的 预测 优 劣 。 根 据 观 测 值 和 预测 值 的 置信 和 度 进行 排序 ,将 记 
录 从 高 到 低 为 每 个 分 位 数 划分 业务 标准 差 。 在 散 点 图 中 ,将 以 单独 的 线 显示 多 个 模型 ,从 而 
进行 比较 。 


4.3 知识 表示 


数据 可 视 化 , 指 用 图 形 或 表格 的 形式 显示 信息 。 成 功 的 可 视 化 把 数据 及 其 信息 转换 成 
可 视 的 形式 ,并 且 能 够 凸显 出 数据 的 特征 ,以 及 数据 之 间 的 关系 和 重要 性 。 

使 用 可 视 化 技术 ,可 以 帮助 人 们 快速 吸取 大 量 信息 .并 观察 到 其 中 显著 的 模式 和 规律 ， 
让 知识 以 最 快 的 速度 映射 到 人 脑 内 。 
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4.3.1 图 形 节点 


SPSS Modeler 中 有 导入 图 形 和 图 表 的 功能 ,也 有 导出 数据 分 布 和 它们 关系 的 功能 ,这 
些 图 形 化 展示 工具 可 以 让 分 析 人 员 对 数据 有 更 直观 的 理解 和 探查 数据 特征 ,不 仅 可 以 得 到 
部 分 描述 性 统计 结果 ,还 有 助 于 从 中 获得 更 多 的 分 析 思 路 和 灵感 。 


1. 图 形 板 节 点 仿 

图 形 板 节点 的 作用 是 在 单个 节点 上 输出 许多 不 同 的 图 形 ( 散 点 图 、 直 方 图 、 条 形 图 等 )， 
以 进行 最 佳 选择 。 从 第 一 个 选项 卡 开 始 ,选择 所 需 数据 字段 ,节点 将 提供 一 个 适用 于 数据 的 
图 形 类 型 的 选项 ,节点 自动 过 滤 出 适用 于 源 的 所 有 图 形 类 型 。 在 “详细 ”选项 卡 下 ,可 以 定义 
详细 的 选项 或 高 级 选项 。 

2. 散 点 图 节点 A 

散 点 图 节点 的 作用 是 显示 数值 字段 间 的 相互 关系 。 在 SPSS Modeler 中 , 散 点 图 可 以 


开启 3D 效果 图 , 单 击 3D 按钮 启用 Z 轴 设 置 ,在 字段 选择 器 中 选择 Z 轴 引 用 的 字段 。 一 旦 
图 形 生成 之 后 , 单 击 图 形 选 项 卡 , 单 击 3D 按钮 , 即 可 将 视图 切换 为 3D 图 形 。 


3. 分 布 书 点 会 


分 布 节点 的 作用 是 显示 不 同 维度 衡量 的 出 现 次 数 ,用 于 查看 数据 集中 的 程度 。 一 般 情 
况 下 ,显示 的 是 数据 的 分 布 状态 .波动 性 和 集中 度 。 在 数据 分 布 不 平衡 度 很 高 时 ,可 以 选用 
平衡 节点 来 纠正 不 平衡 度 , 然 后 使 用 分 布 节点 。 

4. 直方 图 书 点 全 

直方 图 节点 的 作用 是 显示 不 同 字段 的 出 现 次 数 ,可 以 有 效 地 揭示 不 同 阶段 数据 值 的 分 
布 状态 .波动 性 和 集中 度 。 在 建 模 之 前 ,常常 用 直方 图 检查 数据 ,与 分 布 节点 类 似 ,直方 图 党 
显示 数据 中 的 不 平衡 度 。 生 成 直方 图 时 ,还 可 以 对 横 轴 范 围 , 分 级 ,颜色 、 正 态 曲 线 . 标 题 , 标 
签 文字 说 明 等 选项 进行 编辑 。 

5， 多 重 散 点 图 节点 全 

多 重 散 点 图 节点 的 作用 是 , 在 X 变量 上 显示 多 个 Y 变量 的 关系 图 ,用 彩色 线 把 Y 变量 
连接 起 来 。 经 常用 于 在 一 段 时 间 内 ,多 个 变量 随时 间 变化 的 效果 图。 

生成 多 重 散 点 图 时 ,还 可 以 对 交 程 情形 ,标准 化 、 交 蚕 丽 数 等 选项 进行 设置 。 

6. 网 络 节 点 全 

网 络 节点 的 作用 是 说 明 两 个 或 多 个 (分 类 ) 字 段 值 之 间 关 系 的 强度 ,连接 线条 显示 关系 
链接 , 线 的 粗细 表示 关系 强度 ,常用 于 挖掘 频繁 项 集 模式 、 关 联 分 析 和 相关 性 分 析 。 例 如 , 购 
物 篮 中 商品 之 间 的 关联 ,分 析 顾 客 的 购物 习惯 。 


4.3.2 数据 输出 
输出 节点 ,在 每 个 步骤 中 ,提供 了 我 们 获取 数据 和 模型 信息 的 工具 ,可 以 导出 、 检 查 、 分 
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析 数 据 在 每 一 步 所 处 的 状态 和 可 能 存在 的 问题 。 

1. 表 节 点 国 

表 节 点 的 作用 在 于 以 表格 的 形式 显示 数据 ,当然 ,还 可 以 写 人 到 文件 中 ,方便 检查 、 导 出 
用 。 在 表 节点 中 ,常用 设置 “突出 显示 符合 条 件 的 记录 ”, 通 过 输入 CLEM 表达 式 , 针 对 指定 
的 条 件 进行 筛选 ,方便 检查 .导出 所 需 数据 。 

2. 分 析 节 点 国 

分 析 节 点 的 作用 在 于 评估 预测 模型 生成 准确 预测 的 能 力 ,常常 用 于 对 一 个 或 多 个 模型 
的 预测 值 和 实际 值 进行 比较 ,可 以 比较 模型 间 的 优 劣 。 

3. 数据 审核 节点 图 

数据 审核 节点 的 作用 在 于 全 面 检查 数据 ,包括 汇总 统计 量 、 直 方 图 .分 布 和 离 群 点 、 缺 失 
值 和 极 值 的 相关 数据 ,将 结果 放 到 矩阵 中 ,可 用 于 排序 ,并 生成 图 表 和 数据 准备 节点 。 

4. 变换 节点 力 

变换 节点 的 作用 是 在 不 改变 数据 原始 特征 的 情况 下 对 数据 进行 变换 ,并 将 结果 进行 可 
视 化 ,如 果 符合 模型 要 求 , 则 再 应 用 于 其 他 分 析 中 。 针 对 一 些 只 适用 于 正 态 分 布 分 析 假设 的 
分 析 方法 ,如 回归 .逻辑 回归 和 判别 分 析 等 ,原始 数据 不 适用 ,常用 的 一 种 处 理 方法 是 对 原始 
数据 元 素 做 变换 ,使 其 更 接近 正 态 分 布 ,再 进行 回归 分 析 。 


4.3.3 数据 导出 


导出 节点 提供 各 种 格式 的 导出 数据 的 方式 和 工具 ,以 便 数据 可 以 在 各 种 形式 下 使 用 , 包 
括 文件 格式 数据 库 及 第 三 方 数据 分 析 软件 。 

1. 数据 库 导出 节点 图 

数据 库 导出 节点 是 将 数据 写 人 与 ODBC 兼容 的 关系 型 数据 库 中 。 设 置 时 ,必须 具备 对 
应 数据 库 写 的 权限 。 

2. 平面 文件 导出 节点 图 

平面 文件 导出 节点 的 作用 是 将 数据 输出 到 已 分 隔 的 文本 文件 ,可 用 于 其 他 分 析 软 件 或 
电子 表格 分 析 , 如 导出 以 逗号 或 分 号 分 隔 的 csv 格式 文本 等 。 平 面 文件 导出 节点 适用 于 导 
出 其 他 分 析 或 供 软件 读 取 电子 表格 用 。 

3. Excel 导出 节点 图 

Excel 导出 节点 的 作用 是 输出 Excel 文件 ,可 以 指定 字段 .Excel 中 的 起 始 单元 格 ,选择 
是 建立 新 文件 ,还 是 插入 到 原 有 文件 中 等 ,还 可 以 等 导出 成 功 后 直接 打开 Excel 文件 。 
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法 国 著 名 的 诗人 保罗 ，。 瓦 莱 利 曾 说 :“ 不 擦 香水 的 女人 没有 未 来 ”香水 对 于 现代 都 市 
女性 ,不 仅 是 生活 品位 的 标志 ,更 是 个 人 气质 的 象征 。 对 于 男士 来 说 ,使 用 香水 也 是 提升 个 
人 魅力 的 途径 。 随 着 经 济 发 展 以 及 人 民生 活水 平 的 提高 ,国内 消费 者 对 香水 产品 的 消费 需 
求 快速 增长 ,曾经 作为 奢侈 品 的 香水 ,逐渐 成 为 人 们 的 日 常生 活用 品 。 

我 国 的 香水 行业 较 欧美 国家 起 步 晚 ,所 占 市 场 份 额 小 ,目前 尚 处 于 成 长 期 。 这 同时 也 说 
明了 我 国 的 香水 市 场 有 巨大 的 潜力 。 许 多 国际 大 牌 香水 制造 商 正在 努力 提升 它们 在 中 国 市 
场 的 份额 ,竞争 未 来 的 巨大 市 场 前 景 。 全 球 范围 内 ,香水 市 场 是 一 个 市 值 438. 9 亿美 元 的 产 
业 , 每 年 至 少 有 300 种 新 品种 上 市 。 

根据 中 国产 业 信息 网 的 统计 ,2015 年 我 国 香水 市 场 规模 为 185 亿 元 ,环比 增长 15. 6%% 。 
我 国 香 水 市 场 的 快速 发 展 也 带 来 了 不 同 香水 产品 的 大 量 涌现 ,那么 到 底 什么 样 的 香水 产品 
销量 更 好 ,更 受 消费 者 欢迎 呢 ? 这 些 香水 产品 又 有 什么 样 的 特点 呢 ? 本 章 以 从 某 电 商 网 站 
上 抓 取 到 的 香水 产品 销量 数据 分 析 香 水 销售 的 影响 因素 ,为 香水 销售 商 判定 采购 计划 以 及 
用 户 选择 香水 提供 依据 。 








5.1 香水 销售 数据 预 处 理 


本 案例 从 某 电 商 网 站 抓 取 了 1009 条 香水 产品 销售 数据 ,包含 了 香水 产品 的 商品 名 称 、 
产品 毛重 ,商品 产地 、 包 装 、 香 调 、 净 含量 、 分 类 、 适 用 性 别 、 适 用 场所 价格 ,以 及 评价 数 。 

“评价 ”字段 的 数据 包含 混合 的 中 文 和 数字 ,末尾 有 一 个 “十 ”号 。“ 十 ”号 很 容易 通过 
Excel 蔡 换 成 ””( 空 字符 串 ) 的 方法 除去 ,但 是 将 “万 ?转换 成 准确 的 数值 结果 ,采用 Excel 或 
者 其 他 现成 的 工具 ,并 不 容易 实现 。 因 此 ,采用 Python 编程 处 理 “ 评 价 ” 和 “适用 场合 ” 字 
段 , 将 评价 数量 转换 成 数值 。 


78 








数据 挖掘 实用 案例 分 析 

















“适用 场所 ?字段 包含 多 个 场所 ,如 果 要 拆 分 成 多 个 字段 ,首先 要 算出 所 有 记录 的 场所 合 
集 , 这 个 步 又 也 不 容易 通过 现 有 工具 实现 。 

这 两 个 预 处 理 步 又 ,最 终 采 用 Python 编程 实现 。 通 过 Python 脚本 生成 了 新 的 字段 。 
将 商品 产地 中 的 “中 国 大 陆 ”“ 广 东 ”“ 浙 江 义 乌 ” 等 统一 蔡 换 成 “中 国 ”。“ 适 用 场所 "字段 分 解 
成 “旅行 “其 他 ”约会 “情趣 ”等 8 个 字段 ,其 类 型 是 0、1 类 型 , 若 该 香水 产品 有 对 应 的 适用 
场所 , 则 设置 为 1, 否则 设置 为 0。 例 如 ,第 一 条 冰 希 黎 的 香水 数据 ,使 用 场所 为 旅行 、 约 会 、 
情趣 、 商 务 .party 聚会 。 将 类 似 “1.9 万 十 ”格式 的 “评价 ”字段 的 值 转换 为 *19000”, 其 类 型 
是 数值 类 型 。 

Python 程序 没有 替换 原 有 字段 ,而 是 生成 一 个 新 字段 。 其 优点 是 ,不 会 丢失 原始 数据 ， 
而 且 可 以 通过 肉眼 复查 ,检查 是 否 有 预 处 理 出 错 的 情况 。 经 过 人 工 审 查 , 经 过 Python 程序 
预 处 理 的 数据 符合 原 数 据 。 图 5. 1 是 Python 预 处 理 完成 的 香水 数据 。 
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图 5.1 Python 预 处 理 完成 的 香水 数据 


对 香水 产品 的 价格 和 评价 数 进 行 离散 化 处 理 , 将 价格 等 间距 分 为 6 个 等 级 , 记 为 低 、 较 
低 . 中 等 、 较 高 .高 .非常 高 ,对 应 价格 区 间 分 别 为 (0,100],(100,300],(300,500],(500， 
700],(700,1000],1000 以 上 ; 同样 ,将 评价 数 等 间距 分 为 7 个 等 级 , 记 为 非常 低 、 低 、 较 低 、 
中 等 、 较 高 、 高 .非常 高 ,对 应 价格 区 间 分 别 为 (0,100],(100,500],(500,1000], (1000， 
2000],(2000,5000],(5000,10 000],10 000 以 上 。 

将 价格 和 评价 数 离 散 化 后 的 变量 记 为 “价格 等 级 ”和 “销量 等 级 ”, 在 SPSS Modeler 18.0 
中 使 用 导出 节点 进行 处 理 , 如 图 5.2 和 图 5. 3 所 示 。 


公式 : 





(价格 <= 100) tben " 低 " 

else if (价格 <= 300) then " 较 低 " 

else if (价格 <= 500) then ' 中 等 
else if (价格 <= 700) then ' 较 高 " 
else if (价格 <= 1000) then ' 高 " 


else ' 非 党 高 ' 
endif 
endif 
endif 
endif 
ndif 











图 5.2 “价格 等 级 "导出 公式 
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公式 : 





£ (评价 <= 100) then "非常 低 " 
else if (评价 <= 500) then " 低 " 
else if (评价 <= 1000) then ' 较 低 " 
else if (评价 <= 2000) then ' 中 等 
else if (评价 <= 5000) then ' 较 高 " 
else if (评价 <= 10000) then "高 * 
else ' 丰 常 高 " 











图 5.3 “销量 等 级 ”导出 公式 


对 香水 产品 的 适用 场合 进行 数量 统计 ,得 到 新 字段 “适用 场合 数量 "。 图 5. 4 显示 了 最 
终 处 理 得 到 的 香水 产品 数据 。 
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| 水神 禄 6。、 中国 ”ao 扬 盏 水 当知 调 Imb15ml 六 秋水 EDP 女 ” 日 第 ， 约会 99 190_10_ 00 10 00 00 10 1000 10 5000 估 “第 高 
《 锡 邮 击 立 装 “ 殉 果 香 调 31m-100mi 汶 竺 水 EDP 娘 “日 党 的 会 18130010 00 10 00 10. 10- 1000 00 5000 低 “ 非 生 低 
法 2 [o 上 香水 _ 死 果 香 调 imi-15ml 。 因此 香水 女 “日 常 ， 约会 - 22 300 10_ 00. 10- 00- 10- 1.0- 1.000 10 6000 货 “计策 
香水 中国。 _ 午 立 装 ”车 方 音调 _1mF15ml 演 香 水 EDT 女 日常， 院 行 “23-- 100- 10- ,00- 10- 00- 10- 10-，1000 10. 000 全 非 荣 低 
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图 5.4 最 终 处 理 得 到 的 香水 产品 数据 


5.2 香水 销售 数据 统计 分 析 


对 1009 条 香水 产品 的 价格 进行 描述 分 析 , 约 92. 47% 的 产品 价格 在 900 元 以 下 ,如 
图 5.5 所 示 。 最 大 值 为 2212 元 ,在 样本 集中 可 查询 到 对 应 产品 为 香奈 儿 机 会 /机 遇 / 黄 色 邂 
逅 女士 香水 50/100mL/ 持 久 淡 香精 EDP EDP100mL。 

产品 的 评论 数 在 一 定 程度 上 代表 了 产品 的 销量 ,因此 用 评论 数 来 代替 产品 的 销量 。 对 
所 有 产品 的 销量 进行 统计 分 析 , 结 果 如 图 5. 6 所 示 , 香 水 产品 的 销量 两 极 分 化 明显 ,有 
58. 87% 的 产品 销量 不 足 1000, 有 约 10.0% 的 产品 销量 大 于 10 000, 其 中 最 大 值 为 100 000 十 ， 
在 样本 数据 集中 对 应 的 产品 为 菲 拉 格 幕 (Ferragamo) 梦 中 情人 女士 香水 礼盒 (香水 100mL 十 身 
体 乳 150mL) 。 

将 预 处 理 完成 的 Excel 数据 导入 SPSS。 发 现 “ 商 品 产地 ”存在 大 量 空 值 。 于 是 ,在 分 析 
商品 产地 分 布 之 前 ,使 用 SPSS 的 “记录 选项 ”选择 ?组 件 对 数据 进行 过 滤 。 过 滤 规 则 是 
【商品 产地 二 ""】。 过 滤 后 ,数据 记录 数目 减少 至 489 条 。 获 取 的 香水 产品 产地 分 布 情况 如 
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图 5.5 香水 产品 价格 描述 分 析 图 
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图 5.6 香水 产品 销量 描述 分 析 图 


图 5.7 所 示 , 所 有 香水 产品 的 产地 中 ,法 国 占 据 了 绝对 比例 ,为 47. 99% 。 德 国 和 西班牙 产 
的 香水 种 类 较 少 ,分 别 为 3.82% 和 3.01% ,如 图 5.7 所 示 。 

由 于 商品 的 评价 数 跨度 比较 大 , 且 商 品 销量 的 两 极 分 化 严重 ,如 果 直 接 用 评价 数 来 绘制 
箱 型 图 ,会 产生 大 量 的 离 群 点 ,不 够 直观 。 因 此 ,对 商品 的 评价 数 以 2 为 底 求 对 数值 ,再 按照 
各 个 字段 对 “评价 对 数值 ”绘制 箱 型 图 。 

用 箱 型 图 描述 各 产地 香水 的 销量 分 布 ,如 图 5.8 所 示 。 从 图 5.8 中 可 以 看 出 ,与 其 他 国 
家 的 香水 产品 相 比 ,西班牙 和 英国 的 香水 产品 销量 明显 偏 低 , 而 德国 .法国 .美国 .意大利 和 
中 国 的 香水 产品 则 没有 明显 差别 。 

图 5.9 显示 了 各 包装 香水 销量 箱 型 图 。 从 图 5. 9 中 可 以 看 出 ,组 合 装 香水 的 整体 销量 
要 高 于 其 他 包装 的 香水 ,因为 组 合 装 的 香水 价格 往往 比较 优惠 ,对 价格 敏感 的 消费 者 有 较 大 
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图 5.8 各 产地 香水 销量 箱 型 图 


的 吸引 力 。 而 限量 版 香水 的 销量 要 明显 低 于 其 他 包装 的 香水 ,主要 原因 是 由 于 限量 版 香水 
的 发 行 量 少 且 价 格 较 高 。 而 Q 版 香水 、 独 立 装 香水 、 礼 品 套装 和 其 他 包装 的 香水 ,销量 则 没 
有 明显 的 差别 。 

将 不 同 香 调 的 香水 销量 绘制 箱 型 图 ,如 图 5. 10 所 示 。 可 以 看 出 , 花 果 香 调和 混合 香 调 
的 香水 产品 整体 销量 要 略 高 于 其 他 香 调 的 香水 ,而 东方 香 调 和 其 他 香 调 的 香水 整体 销量 偏 
低 。 海 洋 香 调和 木质 香 调 的 香水 销量 介 于 两 者 之 间 。 东 方 女性 使 用 香水 的 习惯 较 西 方 女 
性 保守 ,偏好 轻盈 简单 的 清淡 味道 ,因此 花 果 香 调 的 香水 卖 得 最 好 。 木 质 香 调 等 较 浓郁 
的 香水 遮盖 体味 功能 较 强 ,比较 适合 西方 人 ,在 以 年 轻 女性 为 主力 消费 者 的 中 国 市 场 表 
现 一 般 。 
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图 5.9 各 包装 香水 销量 箱 型 图 
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图 5. 10 不 同 香 调 香 水 销量 箱 型 图 





如 图 5. 11 所 示 , 在 净 含 量 方面 ,包装 较 小 的 产品 销量 比较 高 ,包括 1 一 15mL,16 一 
30mL,31 一 100mL。 包 装 小 的 香水 产品 便携 性 强 , 而 且 我 国 大 部 分 的 香水 使 用 者 使 用 需求 
并 不 如 欧美 国家 的 消费 者 高 ,因此 偏好 小 包装 的 香水 。 而 101 一 200mL 以 及 200mL 以 上 规 
格 的 香水 ,不 方便 携带 ,而 且 如 果 不 及 时 使 用 完毕 ,会 有 变质 等 问题 ,因此 大 规格 的 香水 销量 
比 小 包装 的 香水 要 低 。 

按 分 类 分 析 前 ,因为 除了 淡 香 水 EDT 和 浓 香水 EDP 外 的 其 他 种 类 ,如 香 体 走 珠 、 固 体 
香水 / 香 膏 ,发 香 和 雾 等 类 别 的 样本 个 数 较 少 ,所 以 统称 为 “其 他 ”分 类 ,如 图 5. 12 所 示 。 不 同 
分 类 的 香水 方面 , 淡 香 水 EDT 和 浓 香水 EDP 的 销量 好 。 淡 香水 EDT 味道 清淡 ,符合 东方 
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图 5.11 不 同 净 含 量 香水 销量 箱 型 图 


女性 的 消费 特征 。 浓 香水 EDP 主要 针对 年 纪 较 大 的 商务 女性 和 中 年 女性 ,也 有 一 定 的 市 
场 。 其 他 类 别 的 香水 整体 销量 要 低 于 淡 香 水 EDT 和 浓 香水 EDP。 
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5.12 各 分 类 香水 销量 箱 型 图 


按照 1/3、2/3 分 位 数 划分 价格 为 高 .中 、 低 价位 ,对 各 使 用 场合 ,不 同 价位 香水 进行 平均 
销量 统计 ,如 图 5. 13 所 示 。 其 中 ,适用 于 party 聚会 旅行、 约会 .商务 .运动 的 香水 比较 受 
欢迎 。 情 趣 .日 常 和 其 他 适用 场合 的 香水 销量 明显 低 于 其 他 场合 。 

在 价格 敏感 性 方面 ,所 有 使 用 场合 的 香水 产品 都 体现 了 明显 的 价格 敏感 性 。 如 图 5. 14 
所 示 , 低 价位 .中 价位 、 高 价位 的 香水 销量 依次 降低 。 其 中 ,情趣 、 商 务 的 产品 对 价格 最 
敏感 。 
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图 5.14 各 类 香水 不 同 价位 平均 销量 对 比 图 


对 不 同 种 类 的 香水 按照 价位 进行 平均 销量 统计 ,可 以 发 现 淡 香 水 EDT 对 价格 敏感 , 价 
格 低 的 产品 销量 好 ; 而 由 于 浓 香 水 EDP 主要 的 消费 群体 为 年 龄 较 大 的 中 年 女性 和 商务 女 
性 ,对 价格 不 敏感 ,价格 越 高 的 产品 反而 销量 越 高 。 而 其 他 类 别 的 香水 ,中 价位 的 产品 销量 
最 好 。 


5.3 影响 香水 销量 的 因素 分 析 


将 Python 预 处 理 完 成 的 Excel 数据 导入 SPSS。 发 现 “ 商 品 产 地 ”和 “包装 ”存在 大 量 空 
值 。 如 果 不 进行 处 理 , 那 么 在 分 析 影 响 销量 的 因素 时 使 用 SPSS 的 “记录 选项 ”一 “选择 ”组 
件 ,对 数据 进行 过 滤 。 过 滤 规 则 是 [商品 产地 = 二"" or 包装 = 二""], 如 图 5.15 所 示 。 过 滤 后 ， 
数据 记录 数目 减少 至 487 条 。 

使 用 “过 滤器 ”节点 ,过 滤 掉 本 次 分 析 不 需要 的 字段 ,选择 恰当 的 字段 挖掘 影响 销量 等 级 
的 因素 。 本 次 因 变 量 为 “销量 等 级 ”, 自 变量 为 “商品 产地 包装“ 香 调 ”“ 净 含量 “分 类 ”性 
别 ”“ 适 用 场合 数量 ”和 “价格 等 级 ”。“ 过 滤器 ”节点 设置 如 图 5. 16 所 示 。 

使 用 “类 型 "节点 ,将 “销量 等 级 "字段 设置 为 目标 ,其 他 字段 设置 为 输入 ,如 图 5. 17 所 
示 。 使 用 C5. 0 决策 树 算法 ,挖掘 影响 香水 产品 销量 等 级 的 因素 ,图 5. 18 展示 了 SPSS 
Modeler 18.0 中 的 处 理 流程 。 
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模式 :加 包 括 加 丢弃 








图 5.15 去 除 含 空 值 记 录 


区 “网 | 字段 : 已 输入 21 个， 已 过 滤 12 个 ， 已 重 命名 0 个 ， 已 输出 9 个 
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5.16 过 滤 掉 不 需要 的 字段 
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5.17 类 型 设置 示意 图 
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香水 .xlsx 价格 等 级 销量 等 级 


全 一 后 入 


[价格 等 级 香 调 评价 ] 销量 等 级 
图 5. 18 决策 树 具体 构造 流程 
预测 变量 重要 性 如 图 5. 19 所 示 。 在 影响 香水 产品 销量 的 因素 中 ,商品 产地 是 最 重要 


的 ,其 次 是 包装 、 适 用 场合 数量 和 香 调 , 它 们 对 销量 有 较 大 的 影响 。 净 含量 、 性 别 、 价 格 等 级 、 
分 类 对 销量 的 影响 较 小 。 


预测 变量 重要 性 
目标 : 销量 等 级 





商品 产地 
包装 
适用 场合 数量 
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图 5.19 预测 变量 重要 性 


图 5. 20 显示 了 具体 生成 的 决策 树 。 可 以 得 到 如 下 结论 : 

(1) 中 国 和 法 国生 产 的 香水 最 受 消费 者 欢迎 ,整体 销量 等 级 为 “非常 高 "。 法 国 香水 有 
着 悠久 的 历史 ,法 国 是 世界 上 最 著名 的 香水 产地 ,拥有 大 量 的 客户 ,因此 整体 销量 非常 高 。 
而 中 国 香水 比较 符合 东方 人 的 口味 ,而 且 价格 较 低 ,能够 吸引 大 量 的 消费 者 。 

(2) 在 中 国 和 法 国生 产 的 香水 中 ,消费 者 更 加 看 重 的 是 香水 的 香 调 。 整 体 销量 最 高 的 
“ 花 果 香 调 ? 在 国产 香水 中 销量 反而 较 低 ; 整体 销量 较 低 的 “木质 香 调 "销量 却 较 高 。 说 明 国 
产 香水 中 “ 花 果 香 调 ” 的 香水 产品 不 受 消费 者 欢迎 ,应 当 适 当 调 整 香 水 的 生产 、 销 售 策略 吸引 
更 多 消费 者 。 

(3) 德国 ,意大利 和 美国 的 香水 整体 销量 较 高 。 但 是 第 二 层 中 ,对 于 德国 香水 ,消费 者 
更 加 注重 的 是 香水 的 净 含 量 ; 对 于 意大利 香水 ,消费 者 更 加 看 重 价格 ; 对 于 美国 香水 ,消费 
者 更 加 看 重 包装 。 

(4) 英国 和 西班牙 的 产品 销量 较 低 。 对 于 英国 香水 ,消费 者 更 加 看 重 香 调 。 
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广 商品 产地 = 【模式 : 非常 高 ] 只 非常 高 
自 - 商品 产地 = 中国 [模式 : 非常 高 ] 
香 调 in[”“ 洒 质 香 调 ”海洋 香 调 "] [模式 : 非常 高 ] 祖 非 芝 高 
外 香 调 mn [ 东方 香 调 "] [模式 : 非 党 高 ] 
一 香 调 in[` 其 他 "] [模式 : 非常 低 ] 吃 非常 紧 
由- 香 调 in [混合 香 调 "] [模式 : 非常 高 ] 
外- 香 调 in [ 花 果 香 调 "] [模式 : 低 ] 
自 商品 产地 = 德国 [模式 : 较 高 ] 
净 含 量 刘 [~ "101mL-200mi "200ml 以 上 "] [模式 : 较 高 ] 只 较 高 
上 兆 合 量 in["16ml-30m"] [模式 : 较 高 ] 只 较 高 
兆 含 量 in["1ml-15mF"] [模式 : 丰 常 高 ] 只 非常 高 
自净 含 量 inf"31mL-100mr] [模式 : 较 高 ] 
疤 含 里 mn [ 其 他 "] [楼 式 : 较 低 ] 只 较 低 
年- 商品 产地 = 意大利 [模式 : 较 高 ] 
外- 价格 等 级 = 中 等 【模式 : 较 高 ] 
由- 价格 等 级 = 低 [模式 : 较 
外 - 价格 等 级 = 较 低 I 非常 高 ] 
由- 价格 等 级 = 较 高 [模式 : 较 高 ] 
价格 等 级 = Re 较 高 ] 只 较 高 





国 - 价格 等 级 = 高 [模式 : 低 ] 
息 - 商品 产地 = 法 国 [模式 : 非常 高 ] 
一 香 同 in [一 ] [模式 非常 高 ] 喀 非常 高 
香 调 n [ 东方 香 调 ”海洋 香 调 "] [模式 : 非常 低 】 非常 低 
图- 香 调 in [ 其 他 "] [模式 : 非常 低 ] 
由 香 调 in [ 木质 香 调 "] [模式 : 较 低 ] 
转 香 调 in [混合 香 调 "] [模式 : 较 高 ] 
鲜 - 香 调 in [ 花 果 香 调 ] [模式 : 丰 常 高 ] 
自 商品 产地 = 美国 [模式 : 较 高 ] 
~ 包装 in[” 其 他 " 候 量 版 装 "] [模式 : 较 高 ] 只 较 高 
包装 in["Q 版 香水 "] [模式 : 非常 高 ] 只 非常 高 
外 包装 in[ 种 立 装 "] [模式 : 较 高 ] 
一 包装 看 [已 品 套 装 "] [模式 : 低 ] 只 低 
包装 in[ "组合 装 "] [模式 : 较 低 ] 只 较 低 
且 商品 产地 = 英国 [模式 : 非常 低 ] 
六 香 调 in [” 东方 香 调 ”其 他 "] [模式 : 非常 低 ] 咏 非常 爷 
香 词 in [ 木质 香 调 "] [模式 : 低 ] 只 低 
上 可 同 in [ 海洋 香 调 "] [模式 : 非常 低 ] 咏 非常 低 
外 香 调 in [ 混合 香 调 "] [模式 : 非常 低 ] 
自 - 香 调 in [ " 花 果 香 调 "] [模式 : 中 等 ] 
商品 产地 = 西班牙 [模式 : 低 ] 只 低 


图 5.20 销量 影响 因素 决策 树 分 析 结 果 


5.4 香水 适用 场所 关联 分 析 


对 香水 适用 场所 进行 关联 分 析 。 对 源 数 据 进行 预 处 理 , 将 适用 场所 分 隔 开 , 生 成 不 同 的 
字段 ,总共 为 8 类 。 将 含有 该 类 适用 场所 的 值 设置 为 1. 0 ,否则 设置 为 0.0。 在 关联 分 析 前 
过 滤 掉 除 适用 场所 以 外 的 所 有 本 次 分 析 不 需要 的 字段 ,将 所 有 适用 场所 的 类 型 设置 为 任意 ， 
如 图 5. 21 和 图 5. 22 所 示 。 

进行 关联 分 析 时 ,采用 Apriori 算法 ,将 最 低 条 件 支 持 度 设置 为 55%% ,最 小 规则 置信 度 
设置 为 90% ,运行 Apriori 节点 ,最终 得 到 12 条 关联 规则 。IBM SPSS Modeler 18. 0 中 具体 
的 操作 流程 如 图 5. 23 所 示 。 

图 5. 24 显示 了 对 香水 产品 适用 场所 进行 关联 分 析 后 的 结果 。 可 以 看 到 ,大 多 数 的 适用 
场所 之 间 关 联 性 非常 强 , 说 明 大 部 分 的 香水 产品 不 仅仅 只 有 一 个 适用 场所 ,而 是 有 多 个 适用 
场所 。 例 如 ,适合 日 常 使 用 的 香水 ,往往 也 适合 在 商务 .party 聚会 .约会 上 使 用 。 在 所 有 的 
8 个 适用 场所 中 ,日 常 .商务 .party 聚会 、 约 会 出 现 次 数 最 多 ,也 是 相互 关联 性 最 强 的 场所 ， 
另外 4 个 场所 (旅行 情趣 .运动 .其 他 ) , 则 与 其 他 适用 场所 关联 性 较 小 ,说 明 这 4 个 适用 场 
所 的 香水 产品 针对 性 比较 强 。 
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5.21 过 滤器 节点 变量 设置 
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无 
无 
无 
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图 相 看 当前 字段 ” 查看 未 使 用 的 字段 设置 








图 5. 22 关联 分 析 类 型 设置 
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5.23 IBM SPSS Modeler 18. 0 中 具体 的 操作 
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图 5.24 适用 场所 关联 分 析 结 果 


5.5 香水 聚 类 分 析 


对 香水 进行 聚 类 分 析 , 将 数据 中 的 商品 产地 、 包 装 、 香 调 、 净 含量 ,分 类 ,性 别 、 适 用 场合 
数量 作为 输入 字段 ,使 用 SPSS Modeler 进行 聚 类 分 析 。 

图 5. 25 适用 过 滤器 节点 过 滤 掉 本 次 分 析 不 需要 的 字段 。 图 5. 26 将 商品 产地 、 包 装 、 香 
调 \ 净 含量 \ 分 类 、 性 别 和 适用 场合 数量 作为 输入 进行 聚 类 分 析 。 


驴 Er 字段 : 已 输入 20 个 ， 已 过 滤 1 个， 已 重 命名 0 个 , 已 输出 9 个 
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图 5.25 过 滤器 节点 变量 设置 


这 里 将 聚 类 数 确定 为 6 的 原因 如 下 : 如 果 聚 类 数 设置 为 5, 那 么 最 终 得 到 的 聚 类 质量 较 
差 , 而 且 其 中 预测 变量 重要 性 最 高 的 是 香 调 ,但 得 到 的 5 个 类 别 区 分 度 不 高 ,差异 不 明显 。 
得 到 的 5 类 香水 包装 和 适用 性 别 都 是 独立 装 和 女 ,而 且 其 中 有 一 类 的 净 含 量 值 为 空 值 , 即 该 
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字段 本 到 | 款 失 一 “检查 、 角 色 
因 商品 产地 % 名 义 ”中国 德 国 意大利 法 国美 国 英 - 无 和 入 
四 也 装 名 义 “QO 版 香水 .独立 装 礼 品 喜 装 . 组 合 - 无 输入 
因 香 调 喝 外 调 其 他 .木质 香 调 海洋 香 - 无 \ 输入 
因 净 合 量 坊 名 X “101~200mL*16 一 30m[1 无 输入 
分 类 蝎 名 义 ”其 他 发 香 去 古龙 水 固体 香水 盾 . 无 \ 输入 
性 别 时 标记 通用 放 无 输入 
通用 场合 数量 名 义 “1001020304050607080 无 输入 
四 价格 等 级 而 名 中 等 , 低 较 低 ， 无 @ 无 
四 评价 等 级 而 名 义 中 等 低 较 你 较 高 丰 案 低 直 荣 - 无 G 无 





图 5. 26” 聚 类 类 型 节点 设置 


类 的 香水 净 含 量 分 布 均匀 ,并 有 明显 的 特征 可 供 参考 。 

当 聚 类 数 设 定 为 7, 甚至 更 多 时 ,虽然 聚 类 质量 有 所 增加 ,但 并 不 明显 。 最 终 得 到 的 结 
果 与 聚 类 数 为 6 得 到 的 结果 大 致 相同 。 而 且 如 果 聚 类 数 过 大 ,虽然 聚 类 质量 很 好 ,但 分 类 过 

,会 出 现 过 拟 合 的 情况 ,结果 也 没有 意义 。 

进行 聚 类 时 ,使 用 K-Means 算法 进行 聚 类 ,将 聚 类 数 设置 为 6, 即将 数据 中 涉及 的 香水 

分 为 6 个 类 别 。 聚 类 模型 概要 和 聚 类 质量 如 图 5. 27 所 示 。 
模型 概要 

算法 |K-Means 
输入 |7 
聚 类 |6 























聚 类 质量 





差 | 中 等 良好 
1.0 








05 00 0.5 
访 聚 和 分 离 的 轮廓 测量 
图 5.27 诊 类 模型 概要 和 来 类 质量 


如 图 5. 28 和 图 5. 29 所 示 ,预测 变量 重要 性 依次 为 净 含 量 、 分 类 包装、 香 调 、 商 品 产 地 、 
适用 场合 数量 、 性 别 。 其 中 , 净 含 量 是 聚 类 的 主要 依据 ,而 性 别 则 是 聚 类 过 程 中 ,对 结果 影响 
最 小 的 因素 。 

本 次 聚 类 的 聚 类 质量 为 良好 ,平均 Silhouette 为 0.2。 经 过 对 数据 的 分 析 可 知 ,在 进行 
聚 类 时 ,数据 分 布 不 均 。 例 如 ,同一 种 净 含 量规 格 的 香水 可 能 有 多 种 香 调 ,也 可 能 来 自 不 同 
产地 ,适用 于 不 同 场所 ,而 聚 类 时 不 能 兼顾 净 含 量 . 香 调 、 商 品 产地 等 多 种 因素 ,最 终 影响 聚 
类 结果 。 

经 过 对 所 有 香水 进行 聚 类 分 析 ,本 次 聚 类 分 析 中 涉及 的 香水 大 致 可 以 分 为 6 类 : 

(1) 第 一 类 : 净 含 量 为 31 一 100mL、 淡 香水 EDT、 独 立 装 、 花 果 香 调 、 产 地 为 意大利 、 适 
用 场合 数量 为 1 、 适 用 性 别 为 女 ,所 占 比重 为 24. 5%。 

(2) 第 二 类 : 净 含 量 为 31 一 100mL , 浓 香水 EDP、 独 立 装 、 花 果 香 调 、 产 地 为 法 国 、 适 用 
场合 数量 为 1、 适 用 性 别 为 女 ,所 占 比重 为 23.0%。 

(3) 第 三 类 : 净 含 量 为 31 一 100mL 淡 香水 EDT、 独 立 装 、 花 果 香 调 、 产 地 为 法 国 、 适 用 
场合 数量 为 6、 适用 性 别 为 女 ,所 占 比重 为 22. 1%。 





-1.0 
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到 类 输入 (预测 变量 ) 重 要 性 
国 1.0 国 0.8 国 0.6 国 0.4 器 0.2 口 0.0 
聚 关 | 。 聚 关 -1 聚 类 -4 聚 类 3 聚 类 -6 村 类 2 聚 类 5 
描述 
天 小 . 11.6% 















































净 合 量 净 合 量 净 含 量 净 含 量 净 全 净 合 量 
100mL(66.1%) 31~100mL(98.1%) 31~100mL(74.3%) 31~100mL(79.2%) 1~ (90.9%) 16~30mL( 
分 类 分 类 分 类 分 类 

100.0%) 浓 香水 EDP(100.0%) 淡 香 水 EDT(100.0%) 淡 香 水 EDT(98.1%) 淡 香 水 EDT(79.5%) 浓 香水 EDP(95.2%) 


包装 包装 包装 包装 包装 
本 独立 装 (96.2%) ”独立 装 (94.1%) ”独立 装 (92.5%) Q 版 香水 (61.4%) ”独立 装 (92.9%) 


输入 


ed Be a 商品 产地 a Li 
1%) 50.9%) 


性 别 性 别 性 别 RE 性 别 性 别 
女 (96.4%) 女 (99.0%) 女 (94.1%) 女 (92.5%) 女 (90.9%) 女 (100.0%) 











图 5.28 K-Means 聚 类 结果 





净 含 量 
分 类 
香 调 

商品 产地 
适用 场合 数量 
人 性别 
0.0 0.2 0.4 0.6 0.8 1.0 
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区 
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5.29 聚 类 预测 变量 重要 性 


(4) 第 四 类 : 净 含 量 为 31 一 100mL` 淡 香水 EDT、 独 立 装 、 混 合 香 调 、 产 地 为 法 国 、 适 用 
场合 数量 为 1、 适 用 性 别 为 女 .所 占 比 重 为 11. 6%。 
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(5) 第 五 类 : 净 含 量 为 1 一 15mL、 淡 香水 EDT、Q 版 香水 、 花 果 香 调 、 产 地 为 法 国 、 适 用 
场合 数量 为 1、 适 用 性 别 为 女 ,所 占 比 重 为 9. 6%。 

(6) 第 六 类 : 净 含 量 为 16 一 30mL, 浓 香水 EDP、 独 立 装 、 花 果 香 调 、 产 地 为 法 国 、 适 用 场 
合 数 量 为 1、 适 用 性 别 为 女 ,所 占 比 重 为 9.2%。 

从 净 含 量 的 角度 来 看 ,大 部 分 香水 都 是 31 一 100mL, 所 占 比重 超过 80%。 从 分 类 角度 
来 看 ,大 部 分 香水 为 淡 香 水 EDT; 从 包装 角度 来 看 ,大 部 分 香水 是 独立 装 , 只 有 净 含 量 为 
1 一 15mL 的 香水 是 Q 版 香水 ; 从 香 调 的 角度 来 看 ,大 部 分 香水 是 花 果 香 调 ,混合 香 调 的 香 
水 在 总 类 别 中 占 比重 较 小 ; 从 商品 产地 的 角度 来 看 ,大 部 分 香水 产 自 法 国 , 产 自 其 他 国家 的 
香水 较 少 ; 从 适用 场合 数量 来 看 ,大 部 分 香水 适用 场合 数量 为 1 ,说明 大 部 分 香水 都 适用 于 
固定 的 场合 ,而 有 些 香水 适用 场合 数量 为 6, 但 所 占 比重 不 大 ,说 明 普遍 适用 的 香水 种 类 不 
是 很 多 。 从 性 别 角度 来 看 ,几乎 所 有 香水 都 适用 于 女性 ,男女 通用 的 香水 种 类 较 少 ,也 说 明 
进行 聚 类 时 ,性 别 对 聚 类 结果 的 影响 较 低 。 


5.6 香水 营销 建议 





结合 上 述 分 析 ,对 于 希望 提升 销量 的 商家 来 说 ,在 销售 的 香水 产品 选择 上 ,需要 选择 消 
费 者 欢迎 ,总 体 销 量 好 的 产品 。 

(1) 制定 价格 方面 。 商 家 可 以 将 产品 价格 定位 在 大 众 消费 品 的 水 平 上 ,并 保持 正常 利 
润 空间 ,更 多 考虑 运用 价格 策略 扩大 产品 销路 ,吸引 更 多 的 消费 者 。 结 合 香水 产品 的 分 类 来 
看 , 淡 香 水 EDT 的 销量 与 价格 呈 负 相关 ; 而 浓 香水 EDP 的 销量 与 价格 呈正 相关 。 说 明 浓 
香水 EDP 的 买 家 比较 注重 品质 ,对 价格 不 敏感 ,而 淡 香 水 EDT 的 买 家 对 价格 敏感 。 制 定价 
格 时 ,对 于 淡 香 水 EDT 类 的 产品 ,可 以 根据 消费 者 的 心理 价格 ,在 不 亏损 的 前 提 下 ,适当 降 
低产 品 的 价格 ,从 而 获取 更 多 客户 ,达到 利润 最 大 化 ; 对 于 浓 香水 EDP 类 产品 ,消费 者 追求 
奢侈 品牌 ,价格 越 高 越 能 刺激 其 需求 ,在 调整 空间 内 ,提高 浓 香 水 EDP 产品 的 价格 ,刺激 这 
类 追求 品质 的 消费 者 购买 ,可 以 获取 更 多 客户 ,从 而 增加 收入 。 

(2) 产品 分 类 方面 。 香 水 产品 的 产地 、 香 调 \ 净 含量 都 会 对 销售 产生 很 大 的 影响 ,因此 
选择 正确 类 别 的 香水 产品 进行 销售 是 提升 销量 非常 重要 的 方面 。 法 国 、 意 大 利 是 世界 上 重 
要 的 香水 奢侈 品 产地 ,法 国 、 意 大 利 的 香水 产品 在 世界 范围 内 有 着 巨大 的 影响 力 ; 国产 香水 
在 价格 上 有 着 更 大 的 优势 ,口味 也 更 符合 我 国 消费 者 的 喜好 。 在 香 调 方面 ,我 国 消费 者 喜好 
清淡 的 口味 ,因此 花 果 香 调 之 类 的 清新 口味 有 更 大 的 市 场 。 在 净 含 量 方面 ,便携 性 好 的 小 包 
装 香水 产品 更 受 消费 者 青睐 。 商 家 选择 销售 的 产品 时 ,需要 综合 考虑 产地 ` 香 调 、 净 含量 , 选 
择 更 受 消费 者 欢迎 的 产品 才能 获得 更 多 收入 。 

(3) 销售 策略 方面 。 由 于 消费 者 在 购买 香水 产品 时 体现 出 了 明显 的 价格 敏感 性 ,价格 
低 的 香水 产品 销量 更 好 。 组 合 装 的 香水 销量 好 于 其 他 包装 。 另 外 ,目前 我 国 香水 消费 者 中 
很 大 一 部 分 还 是 购买 香水 作为 礼品 。 因 此 ,商家 为 了 吸引 更 多 消费 者 ,可 以 制定 一 个 短期 促 
销 策 略 ,降低 香水 产品 的 价格 ,通过 价格 优势 吸引 消费 者 的 注意 力 , 并 且 推 出 更 多 的 香水 组 
合 以 及 礼品 装 香水 ,结合 不 同 适用 场合 的 消费 需求 ,满足 不 同 消费 者 群体 ,刺激 特定 消费 者 
群体 消费 。 





第 0 兰 


银行 信用 卡其 诈 与 拖欠 行为 分 析 


信用 卡 作为 一 种 全 新 的 支付 手段 和 信用 工具 ,是 中 国 个 人 金融 服务 市 场 中 成 长 最 快 的 
产品 线 之 一 。 信 用 卡 能 够 给 银行 带 来 很 高 的 利润 。 目 前 ,我 国信 用 卡 透 支 贷款 的 年 利率 为 
18% 左 右 , 同 时 还 会 带 来 相当 可 观 的 分 期 付款 手续 费 收 入 和 商户 回 佣 等 中 间 业 务 收 入 。 根 
据 各 上 市 银行 2015 年 年 报 、 公 开 媒 体 的 数据 统计 ,截至 2015 年 年 末 , 全 国信 用 卡 累 计 发 卡 
4. 32 亿 张 ,授信 总 额 为 7.08 万 亿 元 ,截至 2016 年 年 末 , 工 商 银行 发 卡 量 超过 1. 2 亿 张 , 建 
设 银行 和 招商 银行 发 卡 量 分 别 为 9407 万 张 和 8031 万 张 。 根 据 中 国 银 联 官方 数据 ,2015 年 
银行 信用 卡 业 务 总 收入 为 649. 03 亿 元 ,同比 增长 38. 11%。 信 用 卡 业 务 给 银行 带 来 高 收益 
的 同时 ,也 伴随 着 高 风险 。 截 至 2015 年 末 , 我 国信 用 卡 业务 逾期 半年 未 偿 信贷 总 额 为 
380. 27 亿 元 , 较 2014 年 增加 22. 63 亿 元 ,增长 率 为 6.33%。 我 国 的 信用 卡 平均 不 良 率 已 经 
达到 2.07% ,为 近年 来 新 高 。 

我 国 的 信用 卡 业务 较 国 外 起 步 晚 ,与 国外 成 熟 的 信用 卡 市 场 相 比 其 规模 还 很 小 ,相关 的 
制度 还 不 够 完善 。 作 为 纯 信 用 模式 下 的 金融 信贷 产品 ,信用 卡 风险 主要 包括 三 个 方面 : 信 
用 风险 .欺诈 风险 ,操作 风险 。 近 年 来 , 随 着 互联 网 金融 的 快速 发 展 以 及 支付 模式 日 益 多 元 
化 ,信用 卡 违约 现象 逐渐 增多 ,不 良 贷 款 快速 增长 ,信用 卡 欺诈 违法 套现 等 违法 犯罪 活动 不 
断 出 现 , 并 呈现 出 新 趋势 .新 特点 。 信 用 卡 欺 诈 不 仅 给 银行 造成 经 济 损失 ,还 会 带 来 巨大 的 
声誉 风险 ,降低 客户 对 银行 的 信任 度 。 对 此 ,各 银行 加 强 信用 卡 管理 ,提升 风险 防 控 能 力 已 
经 刻不容缓 。 

本 案例 获取 某 银行 的 客户 信用 卡 记录 ,挖掘 数据 的 潜在 价值 ,为 该 银行 的 信用 卡 业务 决 
策 提 供 参 考 。 该 银行 面临 的 信用 卡 欺诈 和 拖欠 现象 比较 严重 ,发 生 比 例 高 于 我 国 银行 行业 
的 平均 值 。 本 案例 希望 通过 对 影响 用 户 信用 等 级 的 主要 因素 进行 分 析 , 以 及 结合 信用 卡 用 
户 的 人 口 特征 属性 对 欺诈 行为 和 拖欠 行为 的 影响 因素 进行 分 析 。 

通过 对 银行 的 客户 信用 记录 、 申 请 客户 信息 .拖欠 历史 记录 、 消 费 历 史记 录 等 数据 进行 
分 析 , 对 不 同 信 用 程度 的 客户 进行 归 类 ,研究 信用 卡 贷款 拖欠 、 信 用 卡 欺诈 等 问题 与 客户 的 
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个 人 信息 、 信 用 卡 使 用 信息 的 关系 ,为 银行 提前 识别 、 防 控 信 用 卡 业务 风险 提供 参考 ,从 而 减 
少 银行 在 信用 卡 业务 方面 的 损失 。 


6.1 客户 信用 等 级 影响 因素 


个 人 信用 卡 的 信用 风险 是 指 借款 人 不 能 在 规定 期 限 内 按照 约定 及 时 、 足 额 偿 还 银行 本 
金 和 利息 。 随 着 信用 卡 使 用 的 日 益 广泛 ,申请 信用 卡 的 客户 增多 ,也 给 银行 带 来 了 更 大 的 潜 
在 信用 风险 ,银行 需要 采取 相应 措施 ,规避 或 是 减轻 个 人 信用 卡 的 信用 风险 。 

对 申请 新 信用 卡 的 个 人 用 户 进行 信用 分 析 和 等 级 评定 ,是 银行 控制 个 人 信用 卡 信用 风 
险 的 一 项 必要 措施 。 在 客户 向 银行 申请 信用 卡 时 ,银行 会 根据 用 户 提供 的 个 人 信息 进行 评 
分 ,综合 考虑 客户 的 各 项 指标 ,对 每 一 项 指标 都 按照 一 定 的 标准 评分 ,然后 累计 得 到 客户 
的 信用 总 评分 ,为 每 位 客户 制定 信用 等 级 ,给 予 相应 的 信用 卡 额度 。 对 潜在 价值 高 且 信 
用 风险 低 的 客户 ,给 予 大 的 信用 额度 ; 而 对 潜在 价值 低 或 信用 风险 高 的 用 户 , 给 予 小 的 
额度 。 


6.1.1 客户 信用 卡 申请 数据 预 处 理 


在 客户 申请 信用 卡 时 ,主要 考虑 因素 见 表 6. 1 。 
表 6.1 用 户 信用 等 级 评价 指标 

















一 级 指标 个 人 自然 情况 个 人 职业 情况 ”| 个 人 收入 及 财产 个 人 银行 记录 
年 龄 职业 类 别 年 收入 信贷 情况 
性 别 工作 年 限 居住 类 型 

二 级 指标 户籍 车 辆 情况 
婚姻 状态 保险 缴纳 
教育 程度 














从 银行 获取 的 个 人 信用 卡 客户 相关 数据 中 选取 * 申 请 客户 信息 ”和 ”客户 信用 记录 ”两 个 
表格 ,在 SPSS Modeler 18. 0 中 按照 关键 词 “客户 号 ”进行 合并 ,删除 重复 字段 。 由 于 “申请 
客户 信息 ”中 未 申请 成 功 的 用 户 在 “客户 信用 记录 ”中 没有 相应 的 信用 等 级 相关 记录 ,信用 总 
评分 、 信 用 等 级 .额度 .审批 结果 显示 为 null, 如 图 6. 1 所 示 。 


户 号 | 信用 总 评分 | 信用 等 级 “| 梧 度 | 审批 结果 | .| -| 
000099994. Snulls SnullS Snulls Snulls 








000099994. Snulls SnullS Snuls Snulls .| 男 
000099994 Snulls SnullS Snulls Snulls 女 
000099996. 86.000 B- 良 好 客户 50000.0..0- 通 过 男 
000099997. 90.000 和 优质 客户 【100000 0 通过 男 
000099998 86.000 B- 良 好 客户 50000.0.. 0- 通 过 … 女 
000099998 84 .000 B- 良 好 客户 “50000.0- 0 通过 男 
000099998 87.000 8- 良 好 客户 “50000.0-. 0 通过 皮 
000099998 Snulls Snulls Snulls Snuls 32. 男 
000099998 Snulls SnullS Snulls Snulls .41.. 女 已 轻 本 科 个体户 


图 6.1 合并 完成 后 的 用 户 信息 记录 


对 没有 值 的 字段 进行 填充 ,将 合并 完成 后 的 表格 完善 ,便于 后 面 对 影 响 用 户 信用 等 级 的 
因素 进行 分 析 。 通 过 使 用 “填充 ”节点 ,具体 处 理 方法 如 图 6. 2 所 示 ,统一 将 没 通过 审批 的 用 
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户 信用 总 评分 设置 为 0, 信 用 等 级 为 "F- 未 通过 客户 ”, 额 度 为 0, 审批 结果 为 “1- 未 通过 ”。 














请 入 字 席 
他 信用 等 级 

| 
A ER 
条 件 
人 [ 国 | 
车 换 为: 
i | 加 








图 6.2 将 信用 等 级 为 空 值 的 字段 填充 替换 为 未 通过 客户 


数据 分 析 过 程 中 并 不 需要 客户 的 个 人 标识 信息 ,使 用 “过 滤器 ”节点 ,将 “客户 号 “客户 
姓名 ”证件 号 码 ” 等 标识 用 户 的 变量 过 滤 , 由 于 “额度 “信用 总 评分 "变量 和 “信用 等 级 "变量 
作用 重复 ,并 且 对 应 关系 明确 ,因此 将 其 删除 ,如 图 6. 3 所 示 。 


= EE 字段 : 已 输入 19 个 ， 已 过 涉 6 个 ， 已 重 命名 0 个 ， 已 输出 13 个 








图 6.3 “过 滤器 "节点 属性 设置 


使 用 “类 型 "节点 ,将 “信用 等 级 "字段 设置 为 目标 ,其 他 与 客户 有 关 的 个 人 信息 字段 设置 
为 输入 ,使 用 C5.0 决策 树 算法 分 析 用 户 的 人 口 属性 对 用 户 信 用 等 级 的 影响 ,设置 页 面 如 
































图 6.4 所 示 。 
RT 于 [人 入 | 天 | 柯 | 角色 | 

四 信用 等 级 砚 名 义 人 优质 窜 -- 无 © 目标 
年 龄 连续 [18.0.800] 无 输入 
同性 别 标记 男 皮 无 忆 输入 
名 义 去 偶 已 嫩 一 无 忆 答 入 

辕 教 育 程度 ” 喝 名 X 初中 及 以 -- 无 忆 区 入 
固 职 此 # 别 “ 喝 名 X% 个 体 户 其 -- 无 输入 
上 可 曲名 X 上 海内 蒙 - 殉 NE 

四 | 居住 类 型 。 喝 名 义 其 他 租房 无 忆 输入 
同 ] 在 柄 峙 口 5 去 于 E53 SS 











图 6.4 “类 型 "节点 属性 设置 
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对 所 有 审批 通过 的 用 户 , 信 用 评分 为 60 一 69 分 的 用 户 对 应 的 信用 等 级 为 “D- 风 险 客 
户 ”, 相 应 的 信用 卡 为 * 普 卡 ”, 额 度 为 10 000 元 ; 信用 评分 为 70 一 79 分 的 客户 对 应 的 信用 等 
级 为 “C- 普 通 客户 ”, 相 应 的 信用 卡 为 " 银 卡 ”额度 为 20 000 元 ; 信用 评分 为 80 一 89 分 的 用 
户 对 应 的 信用 等 级 为 “B- 良 好 客户 ”, 相 应 的 信用 卡 为 “ 金 卡 ”, 额 度 为 50 000 元 ; 信用 评分 为 
90 一 100 分 的 用 户 对 应 的 信用 等 级 为 “A- 优 质 客户 ”, 相 应 的 信用 卡 为 “白金 卡 ”, 人 额度 为 
100 000 元。 


6.1.2 ”信用卡 申 请 成 功 影响 因素 


在 信用 卡 申 请 的 审批 过 程 中 ,需要 区 分 某 些 潜在 价值 低 且 信用 风险 高 的 客户 ,拒绝 某 些 
指标 达 不 到 要 求 的 申请 ,为 了 方便 信用 卡 中 心 对 申请 记录 进行 量化 审批 ,对 所 有 申请 记录 和 
最 终 获 批 的 客户 列表 进行 关联 分 析 , 得 到 信用 卡 能 否 申请 成 功 的 主要 影响 因素 , 供 信用 卡 中 
心 参考 。 

图 6.5 是 申请 信用 卡 能 否 成 功 的 影响 因素 分 析 流 程 ,分 别 使 用 线性 支持 向 量 机 SVM 
和 SVM 模型 进行 分 析 , 并 使 用 逻辑 回归 计算 各 变量 的 相关 系数 。 使 用 分 区 节点 将 所 有 数 
据 按照 训练 集 70% 和 测试 集 30% 的 比例 分 配 记录 。 


图 会 、 pi 
表格 是 否 申请 成 功 -»D 
纪 


1 分 析 
@—-@ -©@O -© 加 
We 加 


否 申请 成 功 -rbf 是 否 申 请 成 功 -rbf 分析 


Ey 





















会 … 汐 


是 否 申请 成 功 ”是否 申请 成 功 
图 6.5 申请 信用 卡 成 功 与 否 影响 因素 分 析 


数据 预 处 理 之 后 以 信用 等 级 中 “F- 未 通过 客户 ”表示 未 通过 的 用 户 , 将 其 设置 为 申请 失 
败 用 户 , 将 所 有 A 一 D 信用 等 级 的 用 户 统一 置 为 申请 成 功 ,如 图 6.6 所 示 。 

应 用 线性 SVM 模型 对 年 收入 .信贷 情况 、 保 险 缴 纳 、 车 辆 情况 .教育 程度 等 进行 分 析 ， 
并 计算 各 变量 的 预测 变量 重要 性 ,在 线性 SVM 的 模型 结果 后 放置 表格 节点 ,显示 模型 的 结 
果 值 ,如 图 6.7 所 示 , 可 以 看 到 “$ LC- 是 否 申请 成 功 ” 列 中 显示 了 预测 成 功 的 概率 。 

模型 评价 分 析 结 果 如 图 6. 8 所 示 , 训 练 过 程 中 准确 率 为 88. 58%, 应 用 测试 集 进行 验 
证 ,线性 SVM 达到 89. 68% 的 分 类 准确 性 。 在 申请 成 功 的 记录 中 .分 类 正确 的 记录 数 达 到 
3723 条 , 占 总 数 的 89% ,失败 的 条 数 为 475 条 , 占 总 数 的 11%。 
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模式 - 回 单个 口 多 个 
重新 分 类 为 : 新 字段 〇 现 有 宇 段 















































| 了 | 户 条 | 居住 兴 型 | 车 加 铺 况 | | 年 收入 | 信贷 全 况 | 
女 已 嘎 本 科 了 向 企业 北京 目 购 局 列 和 人 1- 坊 吝 灰 功 
2 32 男 。 已 增 硕士 及 以 上 私营 企 业 湖南 自 移 时 有 7 19360 正 过 水 次 了 二 培训 成 功 on 
> 45 女 “已 才 本科 私营 企业 上 海 目 购 羽 。 末 有 有 22 22599 正 在 俊 还 机 2_ 测 碟 成 功 0.594 
二 | 29 男 未 次 硕士 及 以 上 私营 企业 天 津 自 购 局 有 有 4 22975 现 在 没有 货 坎 D- 风 隆 窜 户 成 功 2- 测 大 成 功 0.632 
本 “| 29 女 。 未 贱 研 士 及 以 上 私营 企业 于 夏 自 购 拟 有 有 4 22975 现 在 没有 贷款“D- 风 险 审 户 成 功 1- 声 训 咸 功 0619 
~ 46 女 已 嘲 本 科 秋生 企业 重庆 自 隐 屏 -有 Ej 23 23000 观 在 没 削 贷 深 -只 队 章 户 成功 人 1 声 训 所 功 0571 
>” 46 男 未必 本 科 私营 企业 四 川 自 网 局 有 有 有 23 19360 正 在 伐 还 。。 品 - 员 隆 雁 户 2_ 测 大 成 功 0.620 
> 59 男 已 二 本 科 私营 企业 天 津 自 购 刻 有 有 35 23000 正 在 供 迁 。“ 品 凡 险 雁 户 1 培训 成 功 0.646 
也 54 女 “已 嘲 本 科 私营 企业 于 夏 自 隐秘 。 有 有 28 20322 现在 没有 货 隐 D .内 险 奢 户 成 功 1 培训 坏 功 0.598 
~ 31 女 已 二 三 士 及 以 上 私营 企业 湖北 目 购 局 有 天 6 23420 没 削 贷 了 记录 -风险 竺 户 成 功 二 声 训 感 功 0.566 
了 | 68 女 已 时 本 科 私营 企业 广西 自 隐 拟 于 EE 45 23460 现在 没有 俩 了 -只 隐 奢 户 成功 2- 测 丰 成 功 0.661 
| 48 男 未 过 大 私营 企业 陕西 自 网 三 。 有 有 28 23476 现 在 没有 贷 炊 D- 只 险 春 户 戌 功 2 刚直 成 功 0.683 
| 45 女 已 只 本 科 私营 企业 天 津 目 购 民有 有 有 22 21590 正 在 保 还 。。 D 只 险 奢 户 成 功 2- 测 开 成 功 0.578 
4 54 女 未 所 本 科 个 体 户 “湖北 自 胸 志 “有 有 31 21681 正 在 全 还 。。D- 风 险 奢 户 1 培训 三 功 0.615 
35 | 46 男 已 二 大 外 次 企业 四川 自 购 拟 “有 有 26 21825 巴 在 没有 贷 次 D- 员 险 春 户 成功 2_ 测 友 成 功 0.681 
5 47 女 已 二 大 站 私营 企业 广西 自 隐 所 于 有 27 22058 正 重水 次 成 功 2 _ 测 天 成 功 0.570 
了 | 64 男 未 增 大 人 外 资 企业 天 津 自 网 局 有 有 44 23765 正 常 还 次 D- 只 险 邦 户 成 功 1- 声 训 三 功 0724 
8 | 31 女 未婚 研 士 及 以 上 私营 企业 甘 独 自 移居 有 有 有 56 23916 现在 没有 贷 次 品 - 册 隆 癌 户 成 功 1 其 训 成 功 0.604 
1 | 45 男 高 懂 本科 私营 企业 浙 工 自 购 图 区 有 22 23980 现在 没有 贷 隐 D -只 险 奢 户 成 功 2_ 测 所 成 功 0.600 
0 | 51 女 已 呈 本 科 外 资 企业 重庆 日 购房 有 有 有 28 24108 正 在 从 还 。“” 品 员 险 春 户 成 功 1- 声 训 捕 功 0.593 
对 56 女 ”高 异 本科 沾 体 户 。 福建 白 购 所 。 有 有 33 24113 生生 D 有 和 记 太 功 1 培训 成 功 0617| 
2 | 56 女 未 二 大 个 外 次 企业 El| 自 购 羽 “ 有 有 有 35 24190 现在 没有 货 次 Pa 成 功 2 出 成 功 0.694 
2 | 66 男 未 次 本 科 国有 企业 湖南 自 购 用 。 有 有 有 43 25500 正 在 保 还 。” 口 员 孙 春 户 成 功 1- 培 训 所 功 0689 
2 | 48 男 已 次 本 科 私营 企业 北京 自 购 民有 有 25 10634 现在 没有 货 隐 -内 险 奢 户 成 功 2- 测 K 成 功 0577 
28 “| 29 男 ”未 业 研 士 及 ML 上 外 上 企业 青海 自 移 碾 有 有 有 4 25575 现 在 没有 货 阮 -风险 等 户 成 功 1- 霹 训 成 功 0611 
28 | 42 男 未 过 大 过 国有 企业 黑 -， 自 购 奔 有 有 22 10810 现在 没有 贷 聊 -内 险 春 户 成 功 培训 成 功 0.625 
2 59 男 ”已 嘱 大 # 私营 企业 山东 自 购 叶 有 有 39 10850 正 在 代 还 ”口内 辽 春 户 成 功 2 成 功 0.691 
> 52 男 已 旭 大 人 秋千 企业 广 不 目 购 忆 。 末 有 32 11230 现 在 没有 贷 聊 D- 凡 隆 客户 成 功 2_ 测 二 成 功 0.692 
了 杂 7 女 “已 咽 本 科 私营 企 业 贵州 自 风 局 “有 有 24 11320 现在 没有 贷 灼 _D .内 险 奢 户 成 功 1 项 训 成功 0558 








图 6.7 线性 SVM 分 析 结 果 


线性 SVM 模型 中 各 变量 的 重要 性 如 图 6. 9 所 示 , 其 中 年 收入 的 重要 性 最 高 ,重要 性 超 
过 了 0.7, 其 次 是 信贷 情况 、 保 险 缴 纳 、 车 辆 情况 ,教育 程度 、 户 籍 、 工 作 年 限 、 职 业 \ 年 龄 等 变 
量 较 不 重要 ,婚姻 变量 作用 不 显著 。 

为 了 对 比 ,使 用 SVM 模型 进行 分 析 , 模 型 使 用 专家 模式 ,应 用 RBF 内 核 类 型 ,计算 
SVM 预测 变量 的 重要 性 ,如 图 6. 10 所 示 。 

结果 与 线性 SVM 模型 具有 和 较 大 差异 ,特别 是 年 收入 这 一 项 ,在 线性 SVM 模型 中 排 
名 最 靠 前 ,但 在 SVM 模型 中 排名 靠 后 ,应 用 分 析 节 点 对 SVM 模型 的 结果 进行 分 析 , 如 
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模型 信息 
目标 字段 是 否 申请 成 功 
模型 构建 方法 斌 性 SVM 混 湛 矩阵 
NR 12 瑞 测 目 输出 字 自 是 否 申请 成 功 的 结果 
最 终 异 型 中 的 预测 变量 数 11 夹 测 成 功 。 ”失败 | 比例 正确 自 比 较 SL- 是 否 申 请 成 功 与 是 否 申请 成 功 
A = 人 En - | 本 | 
A) -0 2 C0 | 错误 全 1142% 307 10.32%| 
分 类 准确 性 88.6% ER 而 092 084 0.89 总 计 7.024 2.976 











6.8 线性 SVM 模型 综合 结果 
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预测 变量 重要 性 


图 6.9 线性 SVM 模型 中 各 变量 的 重要 性 


目标 : 是 否 申请 成 功 




















6. 10 SVM 模型 变量 重要 性 


图 6. 11 所 示 ,其 测试 集 的 准确 率 只 有 65. 89%, 低 于 线性 SVM 模型 的 89. 68% 。 

综 上 ,在 实际 应 用 中 建议 使 用 线性 SVM 模型 进行 用 户 信用 的 影响 因素 分 析 , 在 用 户 申 
请 信用 卡 过 程 中 依次 使 用 年 收入 .信贷 情况 、 保 险 缴纳 .车辆 情况 .教育 程度 户籍 .工作 年 
限 、. 职 业 、 年 龄 .性 别 等 进行 评价 。 
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目 - 输 出 字段 是 否 申请 成 功 的 结果 
自 - 比 较 $S- 是 否 申请 成 功 乌 是 否 申请 成 功 





信贷 情况 
年 龄 





分 区 ” 1 项 训 2 测试 
| 5.417 77.12%, 1.961 
1607 2288%| 1.015 


65.89%| 
34.11% 








总 计 - 7.024 2.976 








图 6. 11 


SVM 模型 结果 分 析 


为 了 将 各 项 变量 指标 进行 定量 分 析 , 使 用 逻辑 回归 对 各 影响 因素 进行 分 析 , 并 对 户籍 进 
行 向 上 钻 取 ,按照 地 理 区 域 进行 划分 ,如 * 华 东 ?” 包 括 山东 江苏. 上海、 浙江、 安徽 .江西 6 个 
省 市 ,运行 模型 后 得 到 的 结果 如 图 6. 12 所 示 ,重要 性 指标 与 线性 SVM 模型 大 致 相同 。 
目标 : 是 否 申请 成 功 


i 





i 
0.4 0.6 


图 6.12 逻辑 回归 模型 变量 重要 性 
其 中 , 表 6.2 是 各 项 影响 因素 变量 的 分 布 情况 ,包括 各 个 分 类 输入 变量 的 数量 及 所 占 总 




















记录 数 的 比例 。 
表 6.2 各 影响 因素 变量 的 分 布 情况 
N Marginal Percentage 
成 功 4198 59.8% 
人 失败 2826 40.2% 
离异 324 4.6% 
丧偶 12 0.2% 
所 央 未 婚 4573 65.1% 
已 婚 2115 30.1% 
本 科 3403 48.4% 
初中 及 以 下 709 10.1% 
教育 程度 大 专 1608 22.9% 
高 中 693 9.9% 
硕士 及 以 上 611 8.7% 
其 他 92 1.3% 
居住 类 型 自 购房 1492 21.2% 
租房 5440 77.4% 
无 5296 75.4% 
下 有 1728 24.6% 
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续 表 
N Marginal Percentage 
无 3197 45.5% 
次 隐 灌 有 3827 54.5% 
还 在 拖欠 186 2.6% 
没有 贷款 记录 145 2.1% 
现在 没有 贷款 3741 53.3% 
信贷 情况 逾期 还 款 30 0.4% 
正常 还 款 794 11.3% 
正在 偿还 2128 30.3% 
个 体 户 920 13.1% 
国有 企业 479 6.8% 
职业 其 他 企业 477 6.8% 
私营 企业 4192 59.7% 
外 资 企业 956 13.6% 
男 4926 70.1% 
二 女 2098 29.9% 
东北 690 9.8% 
华北 1335 19.0% 
华东 1826 26.0% 
地 理 区 域 华南 800 11.4% 
华中 653 9.3% 
西北 971 13.8% 
西南 749 10.7% 
Valid 7024 100.0% 
Missing 0 
Total 7024 
Subpopulation 7011 








说 明 : 上 述 表格 是 由 SPSS modeler 自动 生成 的 ,其 中 N 表示 数量 ,Marginal Percentage 表示 所 占 比 例 。 


模型 结果 的 拟 合 情况 如 图 6. 13 所 示 ,其 Sig 指标 为 0 说 明 模型 具有 较 高 的 显著 性 。 


Model Fitting Information 
Model Fitting Criteria Likelihood Ratio Tests 





-2Log 
Likelihood Chi-Square df Sig. 


InterceptOny | 9469.608 | 9476.465 3467.608 
Final 1874781 | 2087.351 1812781 | 7654.827 
图 6.13 逻辑 回归 模型 拟 合 情 况 


模型 的 因 变 量 虚拟 回归 系数 如 图 6. 14 所 示 , 其 中 Cox and Snell 指标 为 0. 664， 
Nagelkerke 参数 为 0. 897,McFadden 参数 为 0. 809 ,说 明 逻 辑 回归 模型 的 质量 较 好 。 





Nagelkerke 
McFadden 





6.14 逻辑 回归 模型 变异 情况 


使 月 

















第 6 章 ”银行 信用 卡 欺诈 与 拖欠 行为 分 析 














目 分 析 节 点 对 结果 进行 分 析 , 其 中 训练 集 准确 率 达 到 94. 01% ,测试 集 的 准确 率 为 


95. 16%% ,如 图 6. 15 所 示 ,说 明 逻 辑 回归 具有 较 高 的 应 用 价值 。 


目 - 输 出 字段 是否 申请 成 功 的 结果 


自 -比较 8L- 是 否 申请 成 功 与 是否 申请 成 功 




















要 区 1 培训 过 测试 
正 硝 6,603 9401% 2832 95.16%| 
错误 421 5.99% 144 4.84%| 
总 计 7,024 2.976 
上 自 -$LP- 是 否 申请 成 功 的 置信 和 度 值 报告 
分 区 “=1 其 训 
围 05-1.0| 
0.959| 
0.713| 
0.977 【观测 值 的 70.67%) 
0.501 (观测 值 的 0.03%) 
94.01% 以 上 的 准 硝 竹 0.0| 
2.0 以 上 的 折 登 正 硝 性 0.732 (观测 值 的 97.01%) 
分 区 "= 2 测试 
范围 0.5-1.0| 
平均 正确 性 0.958| 
平均 不 正 硝 性 0.721 
正 硝 性 始终 高 于 0.979 《观测 值 的 70.13%) 
不 正确 性 始终 低 于 0.5 (观测 值 的 0%) 
95.16% 以 上 的 准 硝 性 00| 
2.0 以 上 的 折合 正确 性 0.731 (观测 值 的 97.6%) 











图 6.15 逻辑 回归 模型 结果 对 比分 析 


将 逻辑 回归 结果 以 回归 方程 的 形式 进行 量化 ,结果 如 图 6. 16 所 示 ,用户 申 请 信用 卡 时 
将 其 提交 的 资料 应 用 于 回归 方程 中 ,可 得 到 审批 结果 。 


蛋 - 方 程式 用 于 成 功 


0.06546 * 工 作 年 限 + 
0.0001316 "年 收入 + 

0.03073 "年龄 + 

-0.3525 * | 旺 姻 = 离异 ] + 

-0.152* [婚姻 = 衣 偶 ] + 

-0.1204 * [婚姻 = 未 婚 ] + 

-2714" [车 育 程度 = 本 科 ] + 
-3.755 * 悚 育 程 度 = 初 中 及 以 下 ]+ 
-2.622 * 车 育 程度 = 大 专 ] + 

所 14* 浅 育 程度 = 商 中 ] + 
-0.6427* | 居住 类 型 = 其 他 ] + 
0.3434 * [居住 类 型 = 自 购房 ] + 
-2.988“ 秆 辆 情况 = 无 ] + 
-4.497* [保险 织 纳 = 无 ]+ 
-1429.4* [信贷 情况 = 还 在 拖欠 ] + 
-0.434* [信贷 情况 = 多 有 贷款 记录 ] + 
-0.2581 * [信贷 情况 = 现在 没有 贷款 ]+ 
-1213.6* 防 代 情 况 = 途 期 还 款 ] + 
-0.0532* 信贷 情 况 = 正常 还 款 ] + 
-0.02383 * 想 业 = 个 体 户 ] + 
-0.1395 * 忠 业 = 国有 企业 ] + 
-0.2731* 鞭 业 = 其 他 企业 ] + 
-0.2375 * 转业 = 私营 企业 ] + 
-0.4284 * [性 别 = 男 ] + 

-0.1751* 此 理 区 域 = 东北 ]+ 
-0.02093 * 地理 区 域 = 华北 ] + 
-0.3923 * 此 理 区 域 = 华东 ]+ 
0.07523* 她 理 区 域 = 华南 ]+ 
-0.1488 * 弛 理 区 域 = 华中 ]+ 
-0.409 * [地 理 区 域 = 西北 ]+ 
+-2081 





图 6.16 逻辑 回归 方程 结果 
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6.2 信用 卡 客户 信用 等 级 影响 因素 


在 SPSS Modeler 18. 0 中 的 处 理 , 具 体 流 程 图 如 图 6. 17 所 示 。 





a 面 
fF 由 
Rk i 


申请 客户 信息 .xlsx | -一例 


信用 等 级 。” 信用 等 级 
图 6.17 信用 等 级 影响 因素 分 析 流 程 图 


C5.0 决策 树 算法 是 应 用 于 较 大 数据 集 上 的 分 类 算法 ,在 执行 效率 和 内 存 使 用 方面 进行 
了 改进 ; 在 面 对 数据 遗漏 和 输入 字段 很 多 的 问题 上 非常 稳健 ,而 且 通 常 不 需要 很 多 的 训练 
次 数 进行 估计 ,在 训练 的 时 候 提高 了 运行 效率 ; 相 比 其 他 类 型 的 模型 ,更 容易 理解 ,模型 推 
出 的 规则 有 非常 直观 的 解释 。 采 用 C5. 0 决策 树 算法 对 决定 用 户 信 用 等 级 的 因素 进行 分 
析 ,挖掘 银行 对 个 人 用 户 信用 等 级 进行 评价 时 的 影响 因素 及 相应 的 重要 性 。 

在 SPSS Modeler 18. 0 中 以 信用 等 级 为 目标 ,其 他 所 有 变量 为 输入 ,运行 C5. 0 决策 树 
算法 ,得 到 模型 的 变量 重要 性 分 布 情况 如 图 6. 18 所 示 。 在 预测 变量 重要 性 分 布 图 中 ,可 以 
看 到 银行 在 评判 个 人 用 户 的 信用 等 级 时 ,最 重要 的 评价 因素 是 用 户 的 年 收入 ,重要 性 远 超 过 
其 他 变量 ,次 重要 的 因素 是 用 户 的 居住 类 型 ,其 次 是 教育 程度 .车 辆 情况 .年龄 .保险 缴纳 、. 单 
笔 消费 金额 ,日 均 消费 次 数 、 工 作 年 限 等 ,与 年 收入 和 居住 类 型 相 比 ,其 他 变量 之 间 的 重要 性 
差异 较 小 。 


目标 : 信用 等 级 


人 | 
居住 类 型 ! 

教育 程度 ] ! 

车 辆 情况 ! 

年 龄 | 

保险 缴纳 上 | 

1 

| 

| 

! 

| 

1 


























单 笔 消费 金额 
日 均 消 费 次 数 
工作 年 限 

0.0 02 0.4 0.6 0.8 1.0 


图 6.18 信用 等 级 预测 变量 重要 性 分 布 图 
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为 了 进一步 分 析 银行 在 评判 个 人 用 户 信用 等 级 时 的 关注 因素 ,选择 合适 的 决策 树 层 数 
进行 分 析 , 由 于 得 到 的 决策 树 共 有 9 层 ,如果 全 部 展开 ， 人 如 果 展 
开 层 数 太 少 , 则 不 能 完整 地 分 析 变 量 重要 性 ,因此 需要 选择 一 个 合适 的 决策 树 层 数 展开 分 
析 。 对 得 到 的 信用 等 级 影响 因素 C5. 0 决策 树 展开 4 层 进 行 分 析 , 得 到 图 6. 19。 


日 
日- 车 辆 情况 = 有 [模式 : D- 风 险 客户 ] 


教育 in[" 初 中 及 以 下 本科” i ] [模式 : D- 风 险 客 户 ]】 只 D- 风 险 客 户 
由 - 教育 in [大专 "] [模式 : D- 风 险 窜 户 ] 
田 - 教育 in [ 硕士 及 以 上 "] [模式 : D- 风 险 客户 ] 
日 - 年 龄 > 35 [模式 : C- 首 通 客 户 ] 
单 笔 消费 最 低 <= 13.400 [模式 ; D- 风 险 客 户 ] 咱 D- 风 险 夺 户 
由 - 单 笔 消 费 最 低 > 13.400 [模式 : C- 首 通 客户 ] 
户 


] 
保险 缴纳 = 无 [模式 : C- 首 通 客户 ] 只 C- 首 通 客户 
日 - 车 辆 情况 = 元 [模式 : D- 风 险 窜 户 ] 
一 年 收入 <= 80,000 [模式 : D -风险 客户 ] 只 D- 风 险 客 户 
日 - 年 收入 > 80.000 [模式 : D- 风 险 客 户 ] 
日- 保险 缴纳 = 有 [模式 : C- 首 通 客 户 ] 
由 -年龄 <= 26 [模式 : D- 风 险 客 户 ] 


一 保险 缴纳 = 有 [模式 : B- 良 好 客户 ] 只 B 良 好 客户 
保险 弧 纳 = 无 [模式 : C- 首 通 客户 ] 咱 C- 首 通 客户 
日- 居住 类 型 = 租 膀 [模式 ; B- 良 好 容 户 ] 
日 - 保险 缴纳 = 有 [ 根 式 : B- 良 好 客户 ] 
一 数 育 in [ 初中 及 以 下 "大考 ”高 中 "] [模式 : B- 良 好 窗户 ] 咏 B- 良 好 客户 
由 - 教育 in [ 本 科 "] [模式 : B- 良 好 客户 ] 


上 年 龄 > 21 [模式 : 人 优质 客户 】 人 优质 客户 

日 - 日 均 次 数 >9 [模式 : 人 优质 客户 ] 
| 年 龄 <=29 [模式 : 昌 良 好 窗户 ] 吃 昌 良 好 客户 
年 龄 > 29 [模式 : 人 优质 客户 ] 忆 人 优质 客户 


图 6.19 用 户 信用 等 级 影响 因素 决策 树 


可 以 看 到 ,年 收入 越 高 的 用 户 . 评 价 得 到 的 信用 等 级 整体 来 说 就 越 高 ,年 收入 大 于 
80 000 和 年 收入 小 于 80 000 之 间 的 差别 最 显著 ; 控制 年 收入 不 变 的 情况 下 ,用 户 的 居住 类 
型 为 自 购房 ,或 是 有 车 辆 ,缴纳 了 保险 ,信用 等 级 就 越 高 。 年 龄 在 一 定 情况 下 ,也 会 影响 到 个 
人 用 户 的 信用 等 级 。 
控制 其 他 变量 不 变 , 分 析 每 个 变量 对 用 户 信用 等 级 影响 的 原因 。 
。 用 户 的 年 收入 越 高 ,用 户 的 消费 能 力 就 越 强 ,银行 能 够 从 这 些 用户 身 上 获取 的 收益 
就 越 高 。 银 行 信用 卡 业 务 的 目的 就 是 为 银行 创造 利润 ,在 图 6. 19 中 可 以 看 到 ,用 户 
的 年 收入 在 50 万 左右 时 ,为 优质 客户 或 良好 客户 。 
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。 居住 类 型 也 体现 用 户 的 个 人 经 济 实力 ,为 仅 次 于 年 收入 的 重要 因素 。 一 般 情况 下 ， 
当 用 户 的 居住 类 型 为 自 购房 时 ,说 明 经 济 实力 较 强 。 而 当 用 户 为 租房 或 是 其 他 居住 
类 型 时 ,说 明 用 户 的 经 济 实力 较 弱 或 生活 不 稳定 ,其 信用 风险 要 高 于 自 购 房 用 户 , 信 
用 等 级 就 低 。 
通过 以 上 分 析 , 说 明 个 人 收入 对 用 户 进行 信用 等 级 评定 时 是 最 重要 的 。 银 行 信用 卡 业 
务 的 主要 目的 是 盈利 ,而 个 人 收入 较 高 的 用 户 ,能 给 银行 带 来 的 收入 就 越 多 。 因 此 ,银行 在 
信用 卡 评级 时 ,主要 考虑 的 因素 是 用 户 的 个 人 收入 。 另 一 个 重要 因素 是 居住 类 型 , 它 反 映 的 
是 用 户 的 经 济 实力 ,在 一 定 程度 上 也 是 个 人 收入 的 体现 。 
银行 对 用 户 进 行 信用 等 级 判定 时 ,应 当 将 个 人 收入 的 比重 放 在 第 一 位 ,居住 类 型 放 在 其 
次 位 置 ,着 重 考虑 这 两 个 因素 对 用 户 的 影响 ,其 他 因素 作为 参考 ,从 而 得 出 银行 对 用 户 信用 
评分 时 的 模型 。 


6.3 基于 消费 的 信用 等 级 影响 因素 


信用 卡 用 户 的 信用 等 级 将 随 着 消费 行为 的 变化 而 不 断 调整 ,调整 的 依据 是 消费 的 行为 
特征 ,提供 的 数据 主要 为 消费 历史 的 统计 结果 值 ,如 日 均 消 费 金额 日 均 消 费 次 数 . 单 笔 消 费 
最 小 金额 , 单 笔 消费 最 大 金额 和 个 人 收入 。 对 信用 卡 用 户 的 消费 行为 进行 统计 分 析 , 探 寻 消费 
行为 与 信用 等 级 之 间 的 关系 。 使 用 箱 图 进行 分 析 , 日 均 消 费 金额 的 统计 结果 如 图 6. 20 所 示 。 






































100 000F-- 了 了 El NS 人 性 
1 ! 1 | | 
80 000| -一 二 | + 
景 | 
多 60000|-- + 
沪 1 1 1 
Ea 1 1 1 
六 40000[--4------1------1+------ + + 
区 1 1 1 
1 1 1 
20000|--3 + 1 

1 
1 
0[-=> n L 
A- 优 -让 - 普 - A- 优 。 B- 良 C- 普 D- 风 
质 客户 Ff 客 通 客 仿 客 质 客户 ”好 客户 。 通 客 户 。 险 客 户 





6.20 基于 日 均 消费 金额 的 信用 等 级 分 析 


可 以 看 到 ,优质 客户 的 日 均 消费 金额 比较 高 ,而 风险 客户 普遍 较 低 。 用 户 消 费 能 力 越 
强 , 其 信用 卡 的 等 级 越 高 。 单 笔 消费 最 大 金额 的 箱 图 如 图 6. 21 所 示 , 随 着 客户 信用 等 级 的 
降低 , 单 笔 消费 最 大 金额 也 逐渐 减 小 ,特别 是 在 二 维 点 图 中 ,风险 客户 的 最 高 消费 金额 基本 
上 集中 于 4000 元 以 下 ,特征 比较 明显 。 

为 了 量化 分 析 信用 等 级 与 消费 行为 之 间 的 关系 ,采用 C5. 0 算法 分 析 消费 行为 与 信用 
等 级 之 间 的 关系 ,可 以 发 现 单 笔 消费 最 高 具有 较 大 的 重要 性 。 如 图 6. 22 所 示 , 其 中 单 笔 消 
费 最 高 金额 低 于 33 409 元 的 客户 且 其 日 均 消 费 金额 低 于 1215 元 ,为 风险 客户 ; 日 均 消费 金 
额 高 于 1215 元 ,但 单 笔 消费 最 高 超过 了 12 847 元 ,也 为 风险 客户 。 
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500 000[-- -于 -一 二 -=----- -=------ F=-] 600000F--r=---- J------ T------ T--] 
| 4 i 1 ! 1 1 1 
1 1 1 1 | | 
400000|---+------ 十 ------ +------- 1 了 | 500000 三 -市 -一 -一 A i 1 
诺 | | 了 | 窟 | | ; | 
鹃 1 + 1 号 400000F--T----- 和 和 < 本 
发 300000|---+------ 十 ------ ee te | ' 1 1 
活 1 1 本 1 和 300000 全 = = 一 =~=~== ri i ts 
地 200000|---#------ 和 = 2 1---] 届 | ! 1 1 
BB $ 4 1 | 200000------- 十 ----- 4------+-- 
1 1 ; 1 1 
i ne i 
| 
A- 优 B- 良 C- 普 D- 风 A- 优 B- 良 C- 普 D- 风 
质 客户 好 客户 通 客户 险 客户 质 客户 ”好 客户 ” 通 客户 险 客户 
信用 等 级 信用 等 级 


图 6.21 基于 单 笔 消费 最 大 金额 的 信用 等 级 分 析 


了 - 单 笔 消费 最 高 <= 33409.100 [模式 : D- 风 险 客户 ] 
日 均 消费 金额 <= 1,215 [模式 : D- 风 险 客 户 ] 只 ”D- 风 险 客户 
日 - 日 均 消费 金额 > 1,215 [模式 : C- 首 通 客户 ] 
一 单 笔 消费 最 高 <= 12847.400 [模式 : C- 首 通 客 户 ] 咏 ”C- 首 通 客户 
单 笔 消费 是 高 > 12847.400 [模式 : D- 风 险 客 户 ] 只 D- 风 险 客 户 
卫 - 单 笔 消费 最 高 > 33409.100 [模式 : B- 良 好 客户 ] 
| 一 日 均 消费 金额 <= 61,504 [模式 : B- 良 好 者 户 ] 号 日 良好 客户 
日 - 日 均 消 费 金 额 > 61,504 [模式 : C- 疼 通 容 户 ] 
日 均 次 数 <= 10 [模式 : C- 首 通 客户 ] 咏 C- 普 通 雁 户 
日 均 次 数 > 10 [模式 : B- 良 好 窗户 】5 B- 良 好 者 户 


图 6.22 ”信用 等 级 与 消费 行为 之 间 的 关系 
应 用 分 析 节 点 对 分 类 结果 进行 评估 ,在 测试 集中 的 准确 率 只 有 53. 36%, 不 具有 实际 的 
应 用 价值 ,如 图 6. 23 所 示 。 


日 输出 字 耻 信用 等 级 的 结果 
日 比较 5C- 信 用 等 级 惫 信用 等 级 
号 区 " 1 培训 2 测试 





LIEm 1633 5589% 1,618 53.36%| 
畏 识 1289 44.11% 1,414 46.64%| 
总 计 2.922 3.032. 


6.23 基于 消费 的 信用 等 级 分 析 结果 


测试 结果 较 低 的 原因 可 能 是 给 定 的 信用 评分 为 申请 信用 卡 时 的 评分 ,并 非 随 着 消费 行 
为 的 变化 而 改变 的 动态 信用 评分 ,虽然 整体 分 类 结果 准确 率 不 高 ,但 单 笔 消费 最 大 金额 ,日 
均 消 费 金额 较 高 的 用 户 其 消费 能 力 较 强 ( 年 收入 较 高 ), 其 相应 的 信用 等 级 也 较 高 ,这 与 上 面 
客户 收入 与 信用 等 级 呈正 相关 的 结论 一 致 


6.4 ”信用卡 欺诈 判断 模型 





信用 卡 欺 诈 风 险 是 借款 人 利用 信息 不 对 称 ,骗取 信用卡 进行 恶意 透支 ,严重 阻碍 了 信用 
卡 行业 稳健 ,快速 地 发 展 。 

随 着 数据 量 的 快速 增长 和 数据 类 型 日 益 复杂 ,信用 卡 欺诈 手段 也 更 加 多 样 化 ,境外 犯罪 
现象 增多 ,违法 分 子 对 商业 银行 风险 核查 手段 的 应 变 能 力 增 强 , 信 用 卡其 诈 现象 屡禁不止 。 
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2015 年 ,信用 卡其 诈 案 件数 量 占 经 济 案件 的 四 分 之 一 ,给 银行 造成 经 济 损失 数 百 亿 元 ,也 给 
银行 带 来 了 不 可 挽回 的 信誉 损失 。 


6.4.1 基于 Apriori 算法 的 欺诈 模型 


通过 “消费 历史 记录 ” 表 中 的 数据 ,分 析 用 户 欺诈 行为 的 发 生 和 消费 行为 之 间 的 关系 。 
自 变 量 为 额度 ,日 均 消费 金额 ,日 均 次 数 . 单 笔 最 大 消费 金额 \ 个 人 收入 , 因 变量 为 是 否 存 在 
欺诈 , 见 表 6. 3。 


表 6.3 数据 来 源 与 说 明 


变量 类 型 变 量 名 详细 说 明 取 值 范围 备 注 


定性 变量 | 1 代表 存在 欺诈 ; 0 代 
(2 水 平 ) | 表 不 存在 欺诈 
定性 变量 | 10 000/20 000/50 000/ 








因 变 量 是 否 存 在 欺诈 欺诈 占 比 4. 50% 





























古人 (4 水平) | 100 000 0 的 
自 变量 日 均 消 费 金 额 单位 : 元 | 30~81797 只 取 整 数 

日 均 次 数 单位 ;次 | 1~28 只 取 整 数 

单 笔 最 大 消费 金额 单位 : 元 | 30.3 一 500 000 保留 一 位 小 数 

个 人 收入 单位 : 元 | 17 000 一 25 000 000 只 取 整 数 


由 于 日 均 消 费 金额 .日 均 次 数 . 单 笔 最 大 消费 金额 个 人 收入 都 是 连续 变量 ,不 适合 使 用 
决策 树 进 行 分 析 , 因 此 衍生 出 两 个 新 的 变量 * 单 笔 是 否 透支 "和 ”日 均 消 费 是 否 超过 收入 ”。 
“ 单 笔 是 否 透支 "根据 单 笔 最 大 消费 金额 和 信用 卡 额度 得 到 , 若 透 支 , 则 设 为 * 超 过”, 否则 设 
为 “未 超过 ”。 若 一 个 用 户 单 笔 消费 最 大 金额 一 额度 二 0, 则 说 明 该 用 户 的 单 笔 消 费 存在 透支 
现象 “ 单 笔 是 否 透 支 " 值 设 为 “超过 ”, 如 图 6. 24 所 示 。“ 日 均 消 费 是 否 超过 收入 "根据 用 户 
的 年 度 收 入 和 日 均 消 费 金额 得 到 。 若 一 个 用 户 日 均 消费 金额 一 个 人 年 度 收 入 /365 二 0, 则 该 
用 户 的 日 均 消费 金额 超过 了 收入 。 若 日 均 消费 金额 超过 了 收入 , 则 设 为 超过”, 否则 值 设 为 
“未 超过 ”, 如 图 6. 25 所 示 。 
号 出 字段 
单 笔 是 否 透支 
































Sb 为 医 册 于 
字段 类 型 | 器 分 类 | 
如 果 : 
( 单 笔 消费 最 大 全 额 - 额度 )> 0 加 | 
加 
EE 国 
否则 
国 #a 回 











6.24 “ 单 笔 是 否 透支 "变量 定义 
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导出 字段 - 
日 均 肖 喜 是 否 超过 收入 














sa 基本 
St 
如 果 : 





国 呈 二 - 人 WW 入 连续 360j > 。 


则 : 


En: 
3 























图 6.25 “日 均 消费 是 否 超过 收入 ”变量 定义 


将 刷卡 日 均 次 数 离散 化 处 理 为 新 的 变量 “刷卡 频率 ”: 1 一 5 次 为 不 频繁 ; 6 一 10 次 为 频 
繁 ; 11 次 及 以 上 为 非常 频繁 ,如 图 6. 26 所 示 。 

导出 字段 

| 剧 卡 频 认 














sa 区 加 
sl 
公式 : 


和 (日 均 数 <= 5) then "不 频繁 图 
else if (日 均 次 数 <= 10) then' 频 毗 ' 
else ' 非 常 频繁 " 
endif 
f 


图 6.26 “刷卡 频率 ”变量 离散 化 





使 用 “过 滤器 ”节点 将 “客户 号 “卡号 ”等 标识 用 户 个 人 的 变量 过 滤 , 由 于 “ 卡 类 别 ” 与 “ 额 


度 ” 的 作用 重复 ,并 且 对 应 关系 明确 ,因此 将 “ 卡 类 别 " 删 除 。 删 除 本 次 分 析 的 无 效 变量 “ 币 种 
代码 “ 单 笔 消费 最 小 金额 ". 如 图 6. 27 所 示 。 


ET 字段 : 已 输入 11 个 ， 已 过 洪 5 个 ， 已 重 命名 0 个， 已 输出 6 个 

















一 


回 查 看 当前 字段 ”加 查看 未 使 用 的 字段 设置 





6.27 “过 滤器 ”属性 设置 
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使 用 “类 型 "节点 ,将 “是 否 存 在 欺诈 ”字段 设置 为 目标 ,上 述 得 到 的 “ 单 笔 是 否 透支 “日 
均 消 费 是 否 超过 收入 “刷卡 频率 ”字段 设置 为 输入 ,使 用 Apriori 算法 分 析 用 户 欺诈 行为 和 
消费 行为 的 关系 。 类 型 节点 属性 设置 如 图 6. 28 所 示 。 











S 大 马克 
i 无 @ 无 
无 @ 无 
i 无 无 
: F 无 @ 无 
是 否 存在 欺诈 曼 标记 1000 无 © 目标 
罗 | 单 笔 是 否 透 支 “ 思 标记 超过 床 超过 无 输入 
日 均 清 费 是 -。 时 标记 超过 床 超过 无 输入 
Al 刷卡 频 吝 名 义 不 频繁 非 无 忆 萌 入 











加 查看 当前 字段 “加 查看 未 使 用 的 字段 设置 
图 6.28 “类 型 "节点 属性 设置 
欺诈 判断 模型 处 理 流程 如 图 6. 29 所 示 。 


@—@©@—©—©—®© 


消费 历史 记录 .xlsx ”过 滤器 。 单 笔 是 否 透支 日 均 消费 是 ”刷卡 频率 
入 


否 超过 








是 否 存在 欺诈 
图 6.29 欺诈 判断 模型 处 理 流 程 


运行 Apriori 算法 ,由 于 欺诈 发 生 所 占 比 例 很 低 , 在 所 有 的 用 户 消 费 记 录 数 据 中 只 占 
4.5% ,因此 最 低 支 持 度 设置 为 0, 最 低 置信 度 设 置 为 60% ,结果 如 图 6. 30 所 示 。 









































6. 30 欺诈 行为 与 消费 记录 的 关系 


可 以 看 出 , 当 用 户 的 刷卡 频率 为 “非常 频繁 ”, 即 日 均 次 数 大 于 10 次 时 ,发 生 欺诈 的 比例 
非常 高 。 对 于 刷卡 频率 为 “非常 频繁 "和 “频繁 "的 用 户 , 即 日 均 次 数 大 于 5 次 时 ,如 果 用 户 同 
时 存在 单 笔 消费 透支 和 日 均 消费 超过 收入 的 情况 , 则 该 用 户 基本 存在 欺诈 行为 。 但 是 ,由 于 
上 述 频繁 项 的 支持 度 百分比 数值 较 低 , 所 以 其 结果 的 准确 性 并 不 高 ,为 了 进一步 提升 准确 
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率 ,可 以 对 原样 本 进行 处 理 , 调 整 欺诈 行为 的 百分比 占 比 ,从 而 提高 频繁 项 集 的 支持 度 百 分 
比比 例 。 


6.4.2 ”基于 判别 的 欺诈 模型 


应 用 判别 分 析 (discriminant analysis) 模 型 进行 分 析 ,得 出 判别 函数 规则 , 当 有 新 的 记录 
产生 时 ,可 以 应 用 规则 判别 是 否 存在 欺诈 行为 。 图 6. 31 是 应 用 判别 模型 的 流程 。 


自 
cs 一 e@ OD 


一 




















creditcard_consume.x.. 


是 否 存在 欺诈 分 析 
图 6.31 应 用 判别 模型 的 流程 


选择 信用 记录 和 消费 历史 记录 ,建立 训练 集 70% 和 测试 集 30% 的 分 区 ,判别 模型 的 目 


标 字 段 选 为 “是 否 存 在 欺诈 ”, 输 入 日 均 次 数 , 日 均 消费 金额 \ 单 笔 消费 最 高 . 单 笔 消费 最 低 ， 
并 应 用 分 区 ,如 图 6. 32 所 示 。 























6. 32 ”判别 模型 字段 配置 


在 “模型 "选项 卡 中 选择 默认 配置 ,在 “专家 ”选项 卡 中 选择 “专家 ”模式 , 单 击 “ 输 出 ” 选 
项 ,选择 Box”M.、 组 内 相关 ,在 函数 系数 中 选择 Fisher”s。 

运行 模型 后 ,获得 判别 模型 的 结果 ,其 中 日 均 消费 次 数 的 权重 最 高 ,已 远 超过 0. 8, 而 日 
均 消费 金额 , 单 笔 消 费 最 低 、 单 笔 消费 最 高 的 重要 性 权重 明显 偏 低 。 如 图 6. 33 所 示 ,特征 值 
(Eigenvalues) 结 果 中 Canonical Correlation 表示 的 是 典型 相关 系数 ,可 以 决定 变量 的 相关 
程度 ,其 中 Wilks’Lambda 的 值 由 Eigenvalue 计算 得 出 , 即 1/(1 十 0. 167) , 卡 方 值 为 645. 865， 
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自由 度 为 2, 所 以 判别 函数 具有 统计 上 的 显著 性 。 


Eigenvalues 


Canonical 
Function % ofVariance | cumulatve % | Correlation 
er] 000| 1000 | 378 


a. First 1 canonical discriminantfunctions were used in the analysis. 





Wilks' Lambda 
Wiks” 
TestofFunction(s) | Lambda 。 | chisquare df Sig 
645865 | 2| oo | 


图 6.33 判别 函数 显著 性 检测 结果 


判别 函数 的 标准 化 系数 表示 各 自 变量 与 判别 函数 之 间 的 部 分 相关 系数 , 即 在 其 他 变量 
不 变 的 情况 下 ,其 与 目标 变量 的 相关 程度 ,表示 自 变量 的 重要 程度 ,从 图 6. 34 中 可 以 看 出 日 
均 次 数 远 超过 其 他 变量 。 


Structure Matrix 
Standardized Canonical 
Discriminant Function 
Coefficients 


日 均 次 数 985 


日 均 消费 金额 * -075 
单 笔 滑 费 最 伍 ” -.070 
单 笔 消 综 最 高 -.037 





EE 
日 均 次 数 1.009 
图 6.34 判别 函数 的 标准 化 系数 及 结构 化 矩阵 系数 


结构 化 矩阵 系数 表示 各 自 变量 与 判别 函数 之 间 的 简单 相关 程度 ,与 标准 化 系数 相 比 , 结 
果 更 加 稳定 。 从 图 6. 35 中 可 以 看 出 ,其 结果 与 标准 化 系数 相同 ,日 均 消费 次 数 重要 ,其 他 自 
变量 与 目标 变量 相关 性 极 小 。 


Classification Results 


| | Predicted Group Membership 
| ”1 | 0 | rot 


Oniginal Count 1 143 
0 624 
0 844 | 1000 


图 6.35 分 类 函数 系数 及 其 结果 


分 类 函数 系数 是 基于 费 雪 (R.A. Fisher) 的 分 类 函数 计算 得 到 的 变量 系数 ,通过 区 分 系 
数 的 系数 值 ,得 到 分 类 的 结果 ,日 均 消 费 次 数 中 存在 欺诈 的 系数 为 1. 703 ,而 无 欺诈 的 系数 
为 0. 696 ,其 他 变量 的 系数 差别 不 大 。 可 以 看 到 ,存在 欺诈 预测 的 准确 率 为 76. 5% ,预测 无 
欺诈 行为 的 准确 率 为 84.4% ,与 欺诈 识别 流程 分 析 节 点 的 结果 一 致 。 如 图 6. 36 所 示 ,训练 
集 的 准确 率 为 84. 06% ,而 测试 集 的 准确 率 为 83. 61%。 


6.4.3 基于 分 类 算法 的 欺诈 模型 


本 节 应 用 SVM 和 CART 等 分 类 算法 对 欺诈 模型 进行 分 析 和 构建 ,如 图 6. 37 所 示 ,其 
中 输入 变量 为 日 均 消 费 次 数 \ 日 均 消费 金额 \ 单 笔 消费 最 高 金额 \ 单 笔 消费 最 低 金 额 ,目标 变 


Classification Function Coefficients 


| FO 
[| 





日 均 消 费 次 数 1.703 .696 
单 笔 消费 最 高 | 2.556E-8 | 5.592E-6 
(Constant) -6.387 -1.771 
Fishers linear discriminantfunctions 
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目 - 输 出 字段 是否 存 在 欺诈 的 结果 
自 -比较 $D- 是 否 存在 欺诈 与 星 否 存在 欺诈 
区” ”1_ 域 训 亏 
正确 3.523| 8406%| 1,428| 83.61%| 
错误 668| 1594%| 280| 16.39% 
总 计 4191 1.708 











6.36 基于 判别 的 预测 准确 率 


量 为 是 否 存 在 欺诈 。 由 于 目标 变量 中 的 类 型 分 布 极 不 平衡 ,所 以 直接 应 用 样本 将 无 法 获得 
应 用 性 较 高 的 模型 ,需要 对 样本 记录 进行 平衡 ,使 用 “平衡 "节点 ,降低 未 欺诈 记录 数 为 原来 
的 20% ,在 分 类 算法 中 使 用 线性 SVM 算法 和 CART 模型 进行 对 比分 析 。 


全 从 


i A 到 二 
@—@—@—@— 售 一 一 四 
选择 平衡 


区 分 分 区 是 否 存在 欺诈 分 析 








转 全-… 分 一 - 国 


数量 是 否 存在 欺诈 ”是 否 存在 欺诈 分 析 
图 6.37 基于 分 类 算法 的 欺诈 模型 流程 


1. 基于 线性 SVM 模型 的 欺诈 模型 

分 区 采用 训练 集 70% 和 测试 集 30% 的 比例 进行 划分 ,使 用 “区 分 ”节点 将 单 笔 消费 最 
高 , 单 笔 消 费 最 低 、 日 均 消费 金额 .日 均 次 数 4 个 字段 相同 的 记录 滤 除 重复 ,经 过 LSVM 模 
型 之 后 ,构建 了 $L- 是 否 存在 欺诈 、$ LC- 是 否 存 在 欺诈 两 列 ,如 图 6. 38 所 示 , 其 中 $ LC- 是 
否 存 在 欺诈 表示 预测 正确 的 可 能 性 。 








| 

1 1 30 白金 卡 0 30.300 1.500 2 测试 0 0762| 
2 3 30 金 卡 0 30.300 1.500 2 测试 0 0719| 
3 2 31 全 卡 0 31.000 1.500 2 测试 0 0741 
到 5 31 金 卡 0 30.400 1.500 2 测试 0 0.670| 
皇 了 31 全 卡 0 30.600 1.500 1_ 培 训 0 0618 
6 2 39 首 卡 0 36.000 3.000 2 测试 0 0741 
性 2| 42 首 卡 0 40.000 3.000 1 培训 0 0741 
8 2 46 首 卡 0 43.000 3.000 2 测试 0 0741 
9 7 48 首 卡 0 45.500 3.300 1 培训 0 0.618 
10 2 53 普 卡 0 50.200 3.900 1 培训 0 0741 
11 6 55 首 卡 0 52000 4.000 2 测试 0 0.645| 
12 5 林 普 卡 0 55.300 44001 培训 | 0 


6. 38 基于 线性 SVM 算法 的 模型 结果 列表 


模型 的 信息 和 混淆 矩阵 的 信息 如 图 6. 39 所 示 ,分 类 的 准确 性 为 89. 2% ,其 中 1 表示 客 
户 欺诈 ,0 表示 没有 欺诈 行为 ,预测 存在 欺诈 且 成 功 的 概率 为 58%% ,预测 未 欺诈 且 成 功 的 概 
率 为 96%。 
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模型 信息 


目标 字段 是 否 存 在 欺诈 
模型 构建 方法 线性 SVM 

输入 的 预测 变量 数 混淆 矩阵 
最 终 模型 中 的 预测 变量 数 


| mW | 
规则 化 类 型 | 1 0 Tene | 
惩罚 参数 (Lambda) 


分 类 准确 性 





于 107 79 0.58 
0 29 789 0.96 
比例 正确 | 0.79 | 0.91 0.89 


图 6.39 模型 的 信息 和 混淆 矩阵 的 信息 


分 析 发 现 , 日 均 次 数 变量 的 重要 性 权重 最 高 ,超过 0. 75 , 单 笔 消费 最 高 金额 . 单 笔 消费 
最 低 金 额 次 之 ,日 均 消费 金额 最 不 重要 。 

使 用 箱 图 分 析 是 否 有 欺诈 行为 的 日 均 消费 次 数 , 其 中 0 表示 没有 欺诈 ,1 表示 有 欺诈 行 
为 。 可 以 看 到 ,有 欺诈 行为 的 用 户 日 均 消费 次 数 明显 偏 多 ,如 图 6. 40 所 示 。 

















30 上 -------- L----------------- L------- -| 
a me 0 ] 
20 上 -------- ----------------- ------- -| 
和 : 
全 15F-------- +---------------- 二 ------- -| 
站 : 
Tn) 1---------------- 填 ------- 下 
Ed 
-3 plc ot de ee tnt rhe. ee 
= 二 
0F-------- rr----------------- 人 村 
0 1 
是 否 存在 欺诈 
图 6. 40 ”信用 卡其 诈 与 日 均 消 费 次 数 的 关系 
应 用 分 析 节 点 查看 模型 中 训练 集 和 测试 集 的 准确 率 ,可 以 看 到 在 测试 集中 达到 88. 06% 


的 准确 率 ,预测 错误 的 记录 只 有 45 条 , 占 总 数 的 11. 94% ,说明 模型 具有 一 定 的 应 用 价值 ， 
如 图 6. 41 所 示 。 
虽然 模型 的 整体 指标 准确 率 较 高 ,但 是 从 真 阳 率 的 指标 来 看 ,其 预测 为 欺诈 的 准确 率 仅 

为 58% ,在 实际 应 用 中 效果 可 能 并 不 理想 。 

2. 基于 CART 模型 的 欺诈 模型 

使 用 CART 进行 对 比分 析 ,结果 如 图 6. 42 所 示 。 

分 析 发 现 ,其 中 日 均 次 数 比重 较 高 , 单 笔 消费 最 低 金额 最 低 、 单 笔 消费 最 高 金额 次 之 ,最 
和 要 的 是 日 均 消 费 金 额 。 

由 CART 算法 得 到 决策 树 如 图 6. 43 所 示 , 其 中 日 均 次 数 超过 5. 5 次 , 单 笔 消费 最 高 金 
额 大 于 9558. 2 元 ,可 标记 为 具有 欺诈 行为 。 
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号 输出 字段 是 否 存在 欺诈 的 结果 
身 单独 模型 
| 自 比 较 $L- 是 否 存在 欢 诈 与 是 否 存在 欺诈 
号 区 工 蔬 训 T 
_| 王 确 858 87.73% 
错误 120 12.27% 
总 计 978 7 
号 $L- 是 否 存在 欺诈 的 符合 矩阵 ( 行 表示 实际 值 ) 









88.06; 














0.602 
0.958 (观测 值 的 0.61%) 
0.503 (观测 值 的 0.2%) 


0.6| 

0.766 (观测 值 的 11.67%) 
0.503 (观测 值 的 0%) 
0.524 


0.605 “观测 值 的 94.12% 











所 评估 度量 


| [只 " 工 瑶 测 了 两 
模型 AUC Gini AUC Ginil 
LL- 是 否 存在 艇 诈 0.878 0.757 0.889 0.778| 




















图 6.41 基于 线性 SVM 算法 的 模型 结果 分 析 
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上 








图 6.42 CART 算法 分 析 结 果 


使 用 分 析 节点 ,查看 CART 的 模型 分 析 结 果 , 如 图 6. 44 所 示 。 可 以 看 到 ,这 个 模型 在 
训练 集 和 测试 集中 均 有 较 好 的 表现 ,达到 95. 66% 的 准确 率 , 从 符合 矩阵 中 可 以 计算 得 到 其 
真 阳 率 达到 80. 25%, 具 有 一 定 的 应 用 价值 。 

因此 ,银行 在 判断 用 户 是 否 存 在 欺诈 行为 时 ,可 以 从 用 户 的 消费 记录 着 手 , 关 注 用 户 的 
刷卡 频率 ,并 且 对 用 户 “ 单 笔 消费 是 否 透支 ”以 及 “日 均 消费 是 否 超 过 收入 ”进行 记录 ,从 而 及 
早 发 现 可 能 有 欺诈 行为 发 生 , 对 于 很 有 可 能 产生 欺诈 行为 的 用 户 ,及 时 采取 预警 ,避免 用 户 
继续 进行 欺诈 行为 ,从 而 减少 欺诈 行为 给 银行 带 来 的 经 济 损失 。 
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号 输出 字段 是 否 存在 欺诈 的 结果 
引 比较 $5R- 是 否 存 在 欺诈 与 是 否 存在 欺诈 
分 区 " 1 培训 


正确 923, 90.85% 
93 9.15% 












2 
375 95.66; 
17 4.34 















总 计 1,016 392| 
身 SR- 是 否 存在 欺诈 的 符合 矩阵 行 表 示 实际 值 ) 
1 


自 $RC- 是 否 存在 欺诈 的 置信 和 度 值 报告 
喉 区 "= 工 培训 








0.783 - 0.949| 
0.929| 
0.89| 
0.949 (观测 值 的 0%) 
0.783 (观测 值 的 0%) 
0.0| 


0.949 0%) 



































围 0.783 - 0.949| 
广 日 均 次 数 <= 5.500 [模式 : 0] 只 0 二 0.333 
自 - 日 均 次 数 > 5.500 [ 模式: 1] 正确 性 始终 高 于 0.949 (观测 值 的 0%) 
| 单 笔 消费 最 高 <= 9558.200 [ 模式 : 0] 只 0 不 正确 性 始终 低 于 0.783 (观测 值 的 0%) 
单 笔 消费 最 高 > 9558.200 [ 模式 : 1 ] 5 1 和 5505 (二 洒 信 的 0 
图 6.43 CART 决策 树 模 型 图 6.44 CART 决策 树 模 型 结果 


6.5 欺诈 人 口 属性 分 析 


在 分 析 欺 诈 模 型 的 基础 上 ,为 了 进一步 分 析 何 种 用 户 容易 发 生 欺 诈 行 为 ,对 用 户 的 人 口 
属性 变量 进行 统计 分 析 , 选 择 与 用 户 人 口 属性 有 关 的 字段 ,这 些 字段 统称 为 客户 因素 。 数 据 
类 型 与 说 明 见 表 6. 4。 

表 6.4 数据 来 源 与 说 明 











变量 类 型 变量 名 详细 说 明 取 值 范围 备 注 
。 定性 变量 1 代表 存在 欺诈 ; 0 代表 | ，， 
因 变 量 是 否 存 在 欺诈 (2 水 平 ) 不 存在 欺诈 欺诈 占 比 4.50% 
性 别 定性 变量 (2 水 平 )| 男 、 女 男性 占 比 71.01% 
年 龄 单位 : 岁 18~80 只 取 整 数 





婚姻 状况 定性 变量 (4 水 平 ) | 离异 /丧偶 /未 婚 /已 婚 未 婚 占 比 65. 12% 
户籍 定性 变量 (30 水 平 ) | 全 国 各 省 
初中 及 以 下 /高 中 /大 专 / 























0 
ee 教育 程度 ”| 定性 变量 (5 水 平 ) 本 科 / 硕 士 及 以 上 本 科 占 比 49. 36% 
客户 因素 居住 类 型 ”| 定性 变量 (3 水 平 ) a 租房 占 比 68. 74% 
职业 类 型 定性 变量 (5 水 平 ) 业 / 外 资 企业 /其 他 企业 私营 企业 占 比 59. 71% 
工作 年 限 单位 : 年 0~50 只 取 整 数 
个 人 收入 单位 : 元 10 416 一 99 000 000 000 “| 只 取 整 数 
保险 缴纳 ”| 定性 变量 (2 水 平 ) | 有 /无 有 占 比 66.75% 

















车 辆 情况 定性 变量 (2 水 平 ) | 有 /无 无 占 比 65. 85% 
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6.5.1 欺诈 人 口 属性 统计 分 析 


在 Excel 中 ,将 “消费 历史 记录 ”和 “客户 信用 记录 ”两 个 表 按 照 关键 词 “ 客 户 号 ”进行 合 
并 ,删除 “日 均 消费 金额 ”日 均 次 数 “ 单 笔 消 费 最 小 金额 ”“ 单 笔 消费 最 大 金额 等 不 需要 的 
字段 ,得 到 一 个 新 表 。 用 户 人 口 属性 信息 与 欺诈 的 关系 ,如 图 6. 45 所 示 。 
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80 78 
70 
oo 60 
50 
二 
30 9 7 8 
ol i ss 一 
EE Es Es 
人 存在 欺诈 行为 的 用 户 年 龄 分 布 (b) 存在 其 诈 行为 的 用 户 工作 年 限 分 布 
100% 100% 
99% 98% [TF [ | 
98% 96% 
97% 94% 
96% 92% 
95% 90% 
94% 88% | 
93% 86% | 
92% 9%, 
% 一 离异 表 偶 ”未 婚 ”已 婚 854% 条 中 及 以 下 高 中 大专， 本科 硕士 及 以 上 
口 无 欺诈 “ 目 欺 许 日 无 赂 诈 “ 目 欺诈 
(0) 婚姻 状况 与 欺诈 关系 (d) 教育 程度 与 区 诈 关系 
口 无 欺诈“ 昌 欺诈 
(©) 户籍 与 欺诈 关系 
100% fo— 100% 
> 2 
70% 
60% 97% 
20% 96% 
3 95% 
0% 94% 
10% 93% 
0 92% 
其 他 自 购房 租房 个 体 户 国有 企业 其 他 企业 私营 企业 外 资 企业 
口 无 欺诈 “ 目 其 诈 口 无 欺诈 “ 目 其 诈 
(0) 居住 类 型 与 其 诈 关系 四 职业 类 别 与 欺诈 关系 


图 6.45 用 户 人 口 属性 信息 与 欺诈 的 关系 
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100% 100% 
99% 
98% el 98% 
96% 97% 
96% 
94% 95% 
92% 94% 
93% 
0 | 党 
6 
无 有 无 
口 无 欺诈 ” 男 欺 诈 口 无 欺诈 卜 欺 诈 
(h) 保险 缴纳 与 欺诈 关系 (iD 车辆 情况 与 欺诈 关系 
6.45 ( 续 ) 


整体 来 看 ,用 户 的 工作 、 生 活 越 稳定 , 受 教育 水 平和 收入 水 平 越 高 ,发 生 欺 诈 的 比例 就 
越 低 。 


6.5.2 基于 逻辑 回归 的 欺诈 人 口 属性 分 析 


为 了 更 加 深入 地 了 解 用 户 信 用 卡其 诈 行 为 的 发 生 原因 及 其 相对 重要 性 ,可 以 对 用 户 记 
录 进 行 回归 分 析 。 在 SPSS Modeler 18. 0 中 ,合并 “客户 信用 记录 ”和 “消费 历史 记录 ”两 个 表 。 

使 用 “过 滤器 ”节点 ,将 “客户 号 “客户 姓名 ”等 标识 用 户 个 人 的 变量 过 滤 。 删 除 无 效 变 
量 “ 币 种 代码 “日 均 消 费 金额 日 均 次 数 “ 单 笔 消费 最 小 金额 “ 单 笔 消 费 最 大 金额 "等 字 
段 ,只 剩 下 与 用 户 人 口 属性 有 关 的 字段 ,如 图 6. 46 所 示 。 


= | = 同 | 字段 : 已 输入 25 个, 已 过 汪 13 个 ， 已 重 命名 0 个， 已 输出 12 个 




















[ 字段 一 过 四 器 
客户 号 -xX* 
窜 户 姓名 E33 
别 一 一 
年 的 -这 引 一 
二 如 拟态 = 
一 一 

教育 程度 一 > 
居住 类 型 c=3 
职业 类 别 = 
工作 年 限 ==3 








加 查看 当前 字段 ”人 查看 未 使 用 的 字段 设置 
图 6.46 “过 滤器 ?节点 属性 设置 


使 用 “类 型 "节点 ,将 “是 否 存 在 欺诈 ”字段 设置 为 目标 , “户籍 “教育 程度 “居住 类 型 ” 
“职业 类 别 ” 等 人 口 属性 字段 设置 为 输入 ,使 用 逻辑 回归 算法 分 析 用 户 欺 诈 行为 和 消费 行为 
的 关系 ,如 图 6.47 所 示 。 

逻辑 回归 主要 在 流行 病 学 中 应 用 较 多 ,比较 常用 的 情形 是 探索 某 疾病 的 危险 因素 ,根据 
危险 因素 预测 某 疾病 发 生 的 概率 。 而 信用 卡 欺诈 行为 也 可 以 看 成 是 一 种 类 似 疾 病 的 不 良 结 
果 , 欺 诈 行为 的 发 生 类 似 于 疾病 的 发 生 , 而 用 户 的 个 人 信息 ,用 户 的 消费 行为 作为 诱发 这 种 
不 良 结果 的 危险 因素 ,因此 采用 逻辑 回归 ,寻找 导致 信用 卡其 诈 行为 发 生 的 危险 因素 ,并 且 
通过 得 到 的 模型 ,预测 在 不 同 危险 因素 变量 值 的 情况 下 ,用 户 发 生 信用 卡 欺诈 行为 的 可 能 
性 ,如 图 6. 48 所 示 。 
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Ee 
| -本 
| 测量 | 值 ” 缺失 | 检查 角色 
天 千 坝 云 均 工 各 疏 系 元 EE 
四 教育 程度 。 虹 名 义 | 初中 及 以 无 S 入 入 
大 居 人 类 型 “而 名 义 其 他 租房 无 答 入 
职 直 类 别 ““ 喝 名 义 个 体 户 其 无 忆 输入 
工作 年 限 连续 [0.0.50.0] 无 忆 区 入 
四 保险 忽 纳 标记 有 大 无 NE- 
因 车 辆 情 品 标记 有 大 无 十 入 
类 别 名 义 关上 白金 无 SN 输入 
是 否 存在 若 话 “ 量 标记 1000 无 图 目标 

















加 查看 当前 字段 ”@ 查看 未 使 用 的 字段 设置 


图 6.47 “类 型 "节点 属性 设置 


== 

祝 用 记录 xl 

mo i ram 
全 一 加 一 全 
oe 合并 类 型 D> | 


是 否 存在 欺诈 








消费 历史 记录 .xlsx 
图 6.48 欺诈 人 口 属 性 分 析 流程 
逻辑 模型 的 检验 结果 如 图 6. 49 所 示 ,显示 了 模型 的 拟 合 效果 。 图 6. 50 显示 了 欺诈 好 
辑 回归 分 析 结果 。 


Model Fitting Information 
Model Fiting Criteria Likelihood Ratio Tests 





-2Log 
Model AIC BIC Likelihood “| chisquare | df | si 





Intercept Only | 2187.797 | 2194.489 2185.797 
Final 2047.309 | 2375.208 1949.309 236.489 


6.49 ”逻辑 模型 的 检验 结果 


从 图 6. 50 可 以 看 到 ,与 欺诈 相关 的 主要 因素 包括 年 收入 ,年 龄 户籍 (安徽 .河北 湖北、 
湖南 、 宁 夏 ) 、 居 住 类 型 (其 他 ) 车辆 情况 (无 ) ,保险 缴纳 (无 ) .教育 (本 科 、 高 中 ) ,分 析 结 果 与 
上 一 节 的 分 析 结 果 一 致 。 

因此 ,如 果 一 个 用 户 为 高 中 学 历 的 未 婚 人 士 , 没 有 固定 的 住所 ,在 其 他 类 别 的 企业 工作 ， 
没有 私人 车 辆 和 保险 缴纳 ,那么 这 个 用 户 发 生 信 用 卡 欺诈 的 概率 就 要 远 远 高 于 其 他 用 户 , 银 
行 可 以 降低 其 信用 额度 ,提早 做 好 风险 防 控 。 

对 于 欺诈 行为 地 域 性 差异 明显 的 结果 ,银行 可 以 调整 旗下 各 地 支行 的 营销 策略 ,对 于 其 
诈 行 为 容易 发 生 的 地 方 , 提 高 申请 信用 卡 的 门槛 ,提高 管理 费用 和 服务 费用 。 对 于 欺诈 风险 
低 的 地 方 ,降低 管理 费用 ,适当 降低 申请 信用 卡 的 要 求 , 让 欺诈 风险 低 的 地 方 有 更 多 用 户 能 
够 享受 到 信用 卡 服务 。 在 营销 宣传 的 时 候 , 可 以 采取 地 区 差异 性 宣传 的 方式 ,针对 各 地 用 户 
不 同 的 整体 信用 水 平 , 调 整 银 行 在 各 地 的 业务 类 别 和 业务 内 容 。 
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Intercept 
工作 年 限 
年 收入 
年 撮 
户 短 - 安 移 
咏 籍 -北齐 
[ 户 寡 = 福建 
[户籍 - 甘 弄 | 
[户籍 = 广 区 
户籍 -广西 
贿 基 = 中 州 


户 寡 = 辽 本 
[户籍 = 内 蒙古 ] 
户 到 
[ 户 基 = 青 漳 ] 
岂 基 = 山 的 
户籍 = 山西 
叫 籍 = 陕 加 


[户籍 -天津 ] 

[ 户 籍 - 西 境 
咏 籍 - 产 疗 
[户籍 = 浙 洒 

[ 户 敌 - 

嘱 住 类 于 -其 仙 
员 住 类 型 = 自 购 局 
[居住 类 型 = 租 忆 
[车辆 情况 = 泥 ] 
车辆 情况 = 有 ] 
[保险 缴纳 = 妮 ] 
(保险 缴纳 = 有 ] 

| 性别 = 男 ] 

给 别 = 如 ] 
噬 姻 = 离异 ] 
星 果 = 交合 ] 

| 晓 曙 = 未 妈 | 
晓 媚 = 已 燃 | 

民 D 育 = 本 利 

司 育 = 初中 及 以 有 
吴 痛 大利 
司 育 = 高 中 

懂 育 = 研 士 及 以 日 
国 册 = 个 体 问 

唆 业 = 国有 企业 
号 业 = 其 他 企业 ] 
吹 业 = 私营 企业 
苏 业 = 外交 企业 | 


a. The reference category is: 1. 
b. This parameter is setto zero because itis redundant. 





Std. Error 


Parameter Estimates 














283 
390 
402 
898 
449 
528 
496 
492 
431 
.831 
.540 


209 
667 


.355 


392 


.996 


703 


31391466.64 


818 


320 
455 


250 


.989 


779 


6.50 欺诈 逻辑 回归 分 析 结果 


95% Confiden' 


ce Inteval for Exp 
(B) 








LowerBound 


31391466.64 
607 





Upper Bound 


978 
586 


1.323 


1.274 
31391466.64 
1.102 


631 
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6.5.3 ”逾期 还 款 的 客户 特征 


信用 卡 拖欠 与 欺诈 为 银行 信用 卡 业 务 非 人 为 操作 的 两 大 风险 ,会 给 银行 带 来 巨大 的 经 
济 损失 。 信 用 风险 是 指 借款 人 不 能 在 规定 期 限 内 按照 约定 的 合约 及 时 、. 足 额 偿还 银行 本 金 
和 利息 的 可 能 性 。 银 行 需要 及 早 根据 用 户 的 个 人 信息 ,评估 用 户 发 生 拖 欠 行 为 的 可 能 性 , 通 
过 减少 用 户 借 贷 额度 等 行为 尽早 做 好 风险 防 控 工 作 。 

下 面 通过 银行 的 客户 信息 和 拖欠 历史 记录 ,对 客户 的 个 人 信息 进行 分 析 , 从 而 对 产生 拖 
欠 的 用 户 进 行 画像 ,得 到 容易 发 生 拖欠 的 用 户 模型 ,为 银行 的 风险 管控 工作 提供 参考 ,从 而 
降低 银行 的 损失 。 

使 用 C5.0 算法 ,分 析 客 户 信用 记录 和 拖欠 历史 记录 两 张 表 , 找 出 逾期 客户 的 画像 ,如 
图 6.51 所 示 。 















































拖欠 用 户 婚姻 状况 分 布 
拖欠 用 户 男女 比例 
目 离异 
四 女 四 已 婚 
(a) 拖欠 用 户 男 女 比例 (b) 拖欠 用 户 婚姻 状况 分 布 
拖欠 用 户 年 龄 分 布 拖欠 用 户 居住 类 型 分 布 
目 其 他 
加 自 购 房 
图 租房 
2| Til 4 
30 岁 以 下 30~39 40~49 50~59 60 岁 以 上 
(c) 拖欠 用 户 年 龄 分 布 (d) 拖欠 用 户 居住 类 型 分 布 
拖欠 用 户 户籍 分 布 



























































































































































(e) 拖欠 用 户 户籍 分 布 
图 6.51 拖欠 用 户 按 人 口 属性 分 布 
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本 科 个 体 户 

目 初中 及 以 下 目 国 有 企 

大 专 其 他 企 y 

四 高 中 国 私营 企 ] 

四 硕士 及 以 上 外 资 企 1 
(1) 拖欠 用 户 教育 程度 分 布 (8g) 拖欠 用 户 职业 类 别 分 布 


图 6.51 ( 续 ) 


可 以 看 出 ,拖欠 用 户 具有 以 下 特征 : 男性 、 未 婚 用 户 、40 岁 以 下 、 租 房 .本 科 、 私 营 企 业 
工作 ,拖欠 用 户 在 广东 、 河 北 、 上 海 、 安 徽 、 湖 北 、 四 川 人 数 较 多 。 


6.5.4 ”基于 决策 树 分 析 逾 期 客户 特征 


首先 需要 对 客户 的 拖欠 程度 进行 评估 ,拖欠 历史 记录 表 中 有 两 个 字段 与 拖欠 程度 评估 
相关 ,一 个 为 “拖欠 总 金额 ”, 另 一 个 为 “逾期 天 数 ”, 可 以 将 其 结合 起 来 用 一 系列 步骤 得 到 拖 
欠 程 度 的 计量 化 评估 。 对 “拖欠 金额 进行 打分 评估 得 到 “拖欠 金额 得 分 ”, 如 图 6. 52 所 示 。 


公式 : 
if (拖欠 总 金额 <= 2500) then 20 


else if (拖欠 总 金额 <= 5000) then 60 
else if (拖欠 总 金额 <= 22000) then 75 





else 100 
endif 
endif 
ndif 








图 6.52 拖欠 金额 得 分 
对 “逾期 天 数 ” 进 行 打分 评估 得 到 “拖欠 时 间 得 分 ”, 如 图 6. 53 所 示 。 


公式 : 
if ( 浓 期 天 数 <= 30) then 20 
else if (六 其 天数 <= 60) then 60 
else if (逾期 天 教 <= 90) then 75 
else 100 





endif 
endif 
ndif 








图 6.53 拖欠 时 间 得 分 


根据 “拖欠 金额 得 分 "和 “拖欠 时 间 得 分 "按照 一 定 的 比例 得 到 “拖欠 总 得 分 ”为 拖欠 金额 
得 分 x0. 6 十 拖欠 时 间 得 分 X0.4。 根 据 “ 拖 欠 总 得 分 ”得 到 拖欠 程度 划分 的 公式 如 图 6. 54 
所 示 。 

将 上 述 过程 结 合 起 来 可 以 得 到 对 拖欠 历史 表 处 理 获取 拖欠 程度 的 数据 挖 气流 ,如 图 6. 55 
所 示 。 
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公式 : 
5 (拖欠 总 得 分 <= 60) then ' 轻 度 指 欠 " 
else if (拖欠 总 得 分 <= 75) then ' 中 度 拖欠 " 
else "重度 拖欠 ? 





endif 
ndif 








6.54 拖欠 总 得 分 离散 划分 


十 


园 一 全 一 全 一 全 
拖欠 历史 记录 .xlsx @— 拖欠 总 得 分 ”拖欠 总 得 分 离散 


拖欠 时 间 得 分 
图 6.55 获取 拖欠 程度 的 数据 挖 气流 


然后 对 客户 信用 记录 表 进 行 初步 处 理 , 将 “居住 类 型 "中 的 “ 自 购房 ”等 同 于 “有 房 ”* 租 
房 "和 “其 他 ”等 同 于 “无 房 "。 将 两 个 数据 集 进行 初步 处 理 后 ,以 “拖欠 总 得 分 _ 离 散 ” 为 目标 ， 
性 别 \ 年 龄 .婚姻 状态 、 户 籍 、 教 育 程度 、 职 业 类 别 、 工 作 年 限 、 个 人 收入 _ 连 续 , 保 险 缴 纳 、 车 辆 
情况 、 房 产 为 输入 ,在 SPSS Modeler 工具 中 建立 相应 的 类 型 节点 。 整 个 分 析 拖 欠 程 度 的 数 
据 挖掘 流 如 图 6. 56 所 示 。 


图 -@ -@ 


元 户 信用 房产 过 滤器 
记录 .xl 
四 可 一 -的 一 仆 一 - 狼 


人 二) 到 合并 排序 ”Ns 
分 
© -©@—@—® : 
额 得 分 1 
km 全 一 人 99 拖欠 总 得 分 拖欠 总 得 
记录 .xlsx 分 离散 
拖欠 时 间 得 分 





6.56 整个 分 析 拖 欠 程度 的 数据 挖掘 流 


分 析 属 性 重要 性 发 现 ,户籍 和 个 人 收入 对 拖欠 程度 影响 最 大 ,车 辆 情况 影响 较 大 ,性 别 、 
年 龄 和 保险 缴纳 影响 较 小 ,其 他 因素 几乎 没有 影响 ,其 中 ,个 人 收入 .车 辆 情况 都 可 以 反映 一 
个 人 的 经 济 实力 ,因此 ,拖欠 程度 和 客户 的 经 济 实力 最 相关 ,其 次 是 户籍、 年 龄 .性 别 和 保险 
缴纳 。 

因为 “拖欠 总 金额 "与 客户 的 总 收 和 有关, 客户 的 总 收入 越 高 , 越 能 申请 到 高 额度 的 信用 


(2 
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卡 , 继 而 容易 产生 大 金额 的 拖欠 ,而 低 收入 的 客户 因为 额度 的 关系 ,可 能 很 难 发 生 相应 金额 
的 拖欠 ,所 以 在 上 述 分 析 拖 欠 程 度 时 ,很 显然 与 客户 收入 相关 ,但 “逾期 天 数 ”" 和 客户 总 收入 
并 不 十 分 相关 ,因此 可 以 单独 考虑 。 

在 拖欠 历史 记录 数据 表 中 对 客户 的 “逾期 天 数 ” 进 行 离散 化 评估 得 到 “拖欠 时 间 _ 离 散 ”， 
如 图 6.57 所 示 。 


公式 : 


人 谊 期 天 数 <= 30) then " 轻 度 证 期 ， 
else if (逾期 天 数 <= 90) then ' 中 度 请 期 " 
else if (请 期 天 数 <=115) then "重度 请 期 ， 
else 严重 这 期" 
endif 
endif 
ndif 











图 6.57 逾期 天 数 离散 化 评估 


然后 对 客户 信用 记录 表 进 行 初步 处 理 ,将 “居住 类 型 "中 的 “ 自 购房 "等同 于 有 房 ”“ 租 
房 " 和 “其 他 ”等 同 于 “无 房 ”。 
将 两 个 数据 集 进行 初步 处 理 后 ,以 “拖欠 时 间 _ 离 散 ” 为 目标 ,性 别 、 年 龄 ,婚姻 状态 、 户 
籍 .教育 程度 .职业 类 别 、 工 作 年 限 个 人 收入 _ 连 续 、 保 险 缴 纳 、 车 辆 情况 .房产 为 输入 条 件 建 
相应 的 类 型 节点 。 分 析 拖 欠 时 间 的 数据 挖掘 流 如 图 6. 58 所 示 。 


@@ 一 全 一 全 a 





ya 遍 散 
客户 信用 记录 .xlsx ”房产 过 滤器 
排序 类 型 逾期 天 数 _ 离 散 


@—©—© 


拖欠 历史 ”逾期 天 数 离散。 过 滤器 
记录 .xlsx 


图 6. 58 分 析 拖欠 时 间 的 数据 挖掘 流 


在 预测 变量 重要 性 分 析 中 可 以 看 到 工作 年 限 对 拖欠 时 间 影 响 最 大 ,个 人 收入 影响 较 大 ， 
户籍、 职业 类 别 .教育 程度 和 性 别 影响 较 小 。 

如 图 6. 59 所 示 , 在 决策 树 中 可 以 发 现 具 有 哪些 特征 的 客户 比较 容易 长 时 间 拖 欠 。 

(1) 工作 年 限 <4 的 客户 ( 约 占 拖 欠 客 户 总 数 的 30%) 大 多 数 为 轻 度 逾 期 ,但 对 于 教育 
程度 为 大专“ 高 中 ”和 “硕士 及 以 上 ”的 客户 有 重度 逾期 的 倾向 。 

(2) 工作 年 限 之 4 的 客户 ( 约 占 拖欠 客户 总 数 的 70%) 大 多 数 为 重度 逾期 ,户籍 此 时 对 
客户 的 逾期 倾向 影响 很 大 ,呈现 明显 的 地 域 性 差异 。 

银行 对 用 户 进行 信用 评分 时 ,可 以 酌情 增加 工作 年 限 的 比重 。 因 为 工作 年 限 虽 然 在 其 
诈 的 判断 模型 中 重要 性 不 是 很 高 ,但 在 用 户 的 拖欠 时 间 评 判 中 却 有 很 大 的 重要 性 。 
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鲜 工作 年 限 <=4 [模式 : 轻 度 请 期 ] 
三 教育 程度 = 初中 及 以 下 【模式 : 轻 度 请 期 ] 只 轻 度 逾期 
| 教育 程度 = 大 专 [模式 : 重度 谊 期 ] => 重度 逾期 
鲜 教育 程度 = 本科 [模式 : 轻 度 诊 期 ] 
图 教育 程度 = 硕士 及 以 上 [模式 : 严重 请 期 ] 
一 教育 程度 = 高 中 [模式 : 严重 逾期] > 严重 瀹 期 
自 - 工作 年 限 > 4 [模式 : 重度 请 期 ] 
外 户 逢 in[" 上 海 "] [模式 : 中 度 这 期 ] 
户 攻 in[" 内 蒙古 "] [ 神 式 : 中 度 让 期 】 只 中 度 谷 期 
图 户 舌 n[" 北 京 "] [模式 : 中 度 让 期] 
上 户 竹 mn[ 上 吉林" 新疆” 西藏" ] [模式 : 严重 证 期 ] 号 严重 逾期 
户 笑 问 [ 四川" 天津 "全 东 " 江苏 " 江西 " 甘肃 "辽宁 ] [模式 : 重度 让 期 ] 只 重度 逾期 
图 户 逢 in[" 宁夏"] [模式 : 
外 - 户 禾 in 安徽] [模式 : 
和 外- 户籍 in[" 山 东 "] [模式 : 
由 - 户 逢 in[" 山 西 "] [模式 : 重度 这 期 
图 pl ] [模式 : 重度 


国 人 
图 户 舌 in[ ”湖南 "] [模式 : 
由- 户 称 in [ "福建"] [模式 : 
和 外- 户 短 in[ 贵州 -] [模式 : 
由 户 逢 in[ "重庆 "] [模式 : 
外 户 称 
图 户籍 
四 户 禾 





in [也 西 "] [模式 : 
in[ 靖 海 "] [模式 : 轻 度 诊 期] 
in[" 黑 龙 江 "] [模式 : 和 


图 6. 59 C5.0 决策 树 分 析 拖欠 时 间 的 决策 树 


6.5.5 ”基于 回归 分 析 逾 期 客户 特征 


通过 回归 分 析 用 户 的 人 口 属性 对 拖欠 行为 的 具体 影响 。 因 为 “拖欠 总 金额 "和 客户 的 总 
收 和 有关 ,客户 的 总 收入 越 高 , 越 能 申请 到 高 额度 的 信用 卡 ,继而 容易 产生 大 金额 的 拖欠 ,而 
低 收 入 的 客户 因为 额度 的 关系 ,也 产生 不 了 较 大 金额 的 拖欠 ,拖欠 时 间 更 能 够 反映 用 户 的 拖 
欠 程 度 , 拖 欠 时 间 越 久 , 用 户 越 可 能 不 履行 还 款 的 义务 ,银行 损失 这 笔 贷款 的 可 能 性 就 越 大 。 
这 里 以 用 户 是 否 拖 欠 为 因 变 量 来 分 析 逾 期 客户 的 特征 , 见 表 6. 5。 
表 6.5 数据 来 源 与 说 明 















































变量 类 型 变量 名 详细 说 明 取 值 范围 备 注 
因 变量 是 否 拖欠 | 0- 未 拖欠 ; 1- 拖 欠 | 0/1 只 取 整 数 
性 别 定性 变量 (2 水 平 ) | 男女 男性 占 比 71.01% 
年 龄 单位 : 岁 18~80 只 取 整 数 
婚姻 状况 | 定性 变量 (4 水 平 ) | 离异 /丧偶 /未 婚 / 已 婚 未 婚 占 比 65. 12% 
户籍 定性 变量 (30 水 平 ) | 全 国 各 省 
初中 及 以 下 /高 中 /大 专 / 
自 变量 ， 教育 程度 | 定性 变量 (5 水 平 ) 未 各 /硕士 及 四 上 本 科 占 比 49. 36% 
客户 因素 居住 类 型 | 定性 变量 (3 水 平 ) | 租房 / 自 购房 /其 他 租房 占 比 68. 74% 
个 体 户 / 国 有 企业 /私营 企 
职业 类 型 定性 变量 (5 水 平 ) 业 / 外 资 企 业 / 其 他 企业 私营 企业 占 比 59. 71% 
工作 年 限 单位 : 年 0~50 只 取 整 数 
保险 缴纳 定性 变量 (2 水 平 ) | 有 /无 有 占 比 66.75% 
车 辆 情况 | 定性 变量 (2 水 平 ) | 有 /无 无 占 比 65. 85% 
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124, 
使 用 “合并 ”节点 ,将 “客户 号 "作为 合并 的 关键 字 , 将 信用 记录 和 逾期 记录 表 进 行 合 并 ， 

选择 “包含 匹配 和 不 匹配 的 记录 (完全 外 部 连接 )”, 并 对 重复 的 字段 进行 滤 除 ,将 拖欠 历史 中 

的 客户 号 、 卡 号、 额度 进 行 过 滤 , 结 果 如 图 6. 60 所 示 。 


Te 











江 扣 上 这 则 六 加 吕 且 要 


图 6.60 “合并 ”节点 结果 预览 


可 以 看 到 ,未 发 生 拖欠 的 用 户 记录 中 ,拖欠 相关 的 字段 为 null, 需 要 应 用 “填充 ”节点 对 
这 些 字段 进行 填充 ,使 用 “填充 ”节点 ,将 “拖欠 标识 “拖欠 总 金额 “逾期 天 数 ” 字 段 设 置 为 填 
和 字段, 蔡 换 选 项 选择 " 空 值 ”, 蔡 换 为 0, 如 图 6. 61 所 示 。 




















图 6. 61 “填充 ”节点 属性 设置 


为 了 减少 户籍 字段 取 什 多 对 算法 的 影响 .使 用 * 重 新 分 类 "节点 将 各 省 份 聚 集 为 "华北 ” 
“华中 下 华南 “西北 “西南 “东北 “华东 "等 大 区 ,如 图 6. 62 所 示 。 

由 于 拖欠 用 户 数 占 比 极 少 ,所 以 在 “分 区 ”节点 中 使 用 80% 的 记录 作为 训练 集 ,20% 的 
记录 作为 测试 集 ,增加 “自动 分 类 ”节点 ,设置 字段 的 目标 变量 和 输入 变量 ,并 使 用 分 区 ,如 
图 6.63 所 示 , 在 “专家 "选项 卡 中 选择 所 有 分 类 模型 。 
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程式 国 单 个 口 多 个 
重新 分 类 为 -” 国 新 字 彼 品 现 有 字 掺 




















6.63 自动 分 类 模型 选择 
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运行 自动 分 类 获得 效果 最 好 的 3 个 分 类 模型 ,结果 如 图 6. 64 所 示 。 对 比 输入 变量 包含 
省 份 或 地 理 区 域 两 种 情况 下 的 结果 ,发 现 模型 的 总 体 精确 性 几乎 没有 差别 ,但 对 结果 模型 详 
情 查看 ,发 现 输入 变量 的 显著 性 方面 ,以 省 份 作为 变量 效果 更 佳 。 














1 a Ey 
意 应 xr#DDsg&G daw [区 到 


加 


二 反方 式 G) a 本 OF ORF -一 一 一 a 区 于 于 

















构建 时 间 。 最 大 总体 由 二 下 方 
是 否 ， | 图 加 bE py Ee (mmo 性 (%) Eos 面 了 
加 党 Loglstc 回 间 1 1 -200 0 1808 95175 13 0653 


| 坊 1 -5411 0 1000 | 95092 1 05 
网 中 坊 -wo， 1 .9167 0 2186 | 95092 6 077 


Co JC ms EE 
图 6.64 “自动 分 类 ”运行 结果 


选择 结果 较 优 的 逻辑 回归 作为 客户 特征 分 析 模 型 ,详细 的 分 析 过 程 如 图 6. 65 所 示 , 其 
中 逮 辑 回归 模型 中 的 输入 变量 和 目标 变量 与 “自动 分 类 ”模型 相同 ,在 "专家 ?选项 卡 中 选择 
“专家 "模式 ,并 且 评 估 各 个 预测 变量 的 重要 性 。 


9、 总 
欠 历 史记 录 .xlsx -*@ -@ -的 -® - 5 祝 

pe 填充 类 型 地 理 区 域 总 识 
全 


客户 信用 记录 .xlsx 合 …… 沪 一 国 


拖欠 标识 ”拖欠 标识 分 析 
图 6.65 基于 逻辑 回归 分 析 逾 期 客户 特征 






































运行 逻辑 回归 模型 并 查看 生成 的 模型 结果 ,如 图 6. 66 所 示 , 可 以 看 到 其 显著 性 Sig 指 
标 为 0, 但 模拟 R 方 指标 偏 低 ,说 明 拟 合 较 差 。 


Model Fitting Information 
Model Fitting Criteria ULikelihood Ratio Tests 





-05 Pseudo R-Square 
Likelihood Chi-Square df Sig. Cox and Snell 037 


| | 
图 6.66 回归 模型 拟 合 性 能 
图 6.67 显示 了 回归 分 析 模 型 的 具体 结果 ,图 中 展示 了 各 个 变量 的 详细 影响 。 从 图 6. 67 
中 可 以 得 出 具有 和 较 高 显著 性 的 变量 (Sig 指标 低 于 0. 05) 为 : 教育 程度 (本 科 、 高 中 )、 居 住 类 
型 (其 他 ) ,保险 缴纳 (无 ) ,信用 等 级 (良好 ) ,户籍 (安徽 广东 河北、 湖北、 湖南 西藏 )。 无 保 
险 缴 纳 的 用 户 拖欠 高 于 有 保险 缴纳 的 用 户 。 





Intercept 
个 人 收入 连续 
年 能 -连续 

合 育 程度 = 本 利 

化 育 程度 = 初中 及 以 月 
伐 育 程度 = 大 专 ] 

全 b 育 程度 = 高 中 ] 

懒 育 程度 = 碘 士 及 以 上 ] 
嘻 住 类 型 = 其 他] 

[ 届 住 类 型 = 自 购 周 

刁 住 类 型 = 租房] 
号 业 类 别 = 个 体 户 ] 

唆 业 类 别 = 国 有 企业 
要 业 类 别 = 其 他 企业 ] 
喇 业 类 别 = 私营 企业 ] 
号 业 类 别 = 外资 企业 
吕 险 缴纳 = 无 ] 

[保险 缴纳 = 和 

[车 辆 情况 = 无 ] 

[车 辆 情况 = 和 

[信用 等 级 =A 优质 客户 ] 


卢 短 = 安 向 
咏 籍 = 北齐 
[户籍 = 福建] 
[户籍 = 甘肃] 
户籍- 广 剂 
户籍- 广西 
[户籍 = 贷 州 | 
[户籍 = 海南 ] 
[户籍 = 河 刀 


户籍 = 吉 可 | 
咏 籍 江 痢 
咏 矫 江 本 
户 逢 = 辽 村 ] 
[ 户 逢 -内 蒙古 ] 
户 逢 = 林 副 
咏 矫 = 青 湖 
户籍 -山区 
户 逢 = 山西 
[P 籍 - 陕 本 
咏 敌 上 湖 
咏 矫 = 四 川 
咏 矫 天 潮 
户 逢 = 西 章 
[ 户 得- 新潮 
户籍 - 浙 河 
[户籍 -= 重 央 ] 
性 别 - 男 ] 
性 别 = 刀 


噬 姻 状态 = 已 姻 
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图 6.67 逾期 回归 分 析 结 果 
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6.5.6 根据 消费 历史 分 析 客 户 特 征 


信用 卡 业务 能 够 给 银行 带 来 巨大 的 利益 ,同时 也 存在 潜在 的 风险 。 信 用 卡 业 务 的 两 面 
性 要 求 银行 对 用 户 进 行 分 类 ,按照 用 户 的 价值 和 用 户 的 风险 对 用 户 细 分 ,从 而 对 不 同类 别 的 
用 户 采 取 不 同 的 营销 措施 。 


6.5.7 基于 聚 类 分 析 客 户 特 征 


对 客户 的 日 常 信 用 卡 消费 统计 数据 进行 挖掘 ,从 而 实现 客户 分 类 。 对 客户 细 分 ,可 应 用 
聚 类 分 析 ,详细 的 过 程 如 图 6. 68 所 示 。 首 先 对 数据 进行 审核 ,查看 数据 的 完整 性 和 分 布 特 
点 ,然后 应 用 自动 聚 类 选择 合适 的 聚 类 方法 ,经 过 比较 发 现 ,K-Means 算法 的 区 分 度 最 高 ， 
所 以 应 用 这 种 算法 对 客户 数据 进行 聚 类 。 


@ -会 国 


Wi 图 i 全 
| 表格 


(车 1 单 笔 消费 最 大 金额 是 否 存 .…. 


K-Means yo 
eg 访 久 \ 


日 均 消费 金额 单 笔 消费 最 小 金额 是 否 存 .… 























国 asxx 日 均 消费 金额 单 笔 消费 最 大 金额 
5 字段 单 笔 消 费 最 小 金额 单 笔 消费 最 大 金额 日 … 


图 6.68 客户 聚 类 分 析 流程 图 


为 了 分 析 各 变量 的 完整 性 和 数据 分 布 特点 ,应 用 数据 审核 节点 对 消费 历史 数据 进行 探 
索 , 如 图 6. 69 所 示 。 可 以 看 到 ,数据 分 布 并 不 符合 标准 正 态 分 布 ,特别 是 个 人 收入 变量 相差 
较 大 ,标准 差 也 很 大 。 








3 样本 图 形 
密 日 均 消 旨 主题 LE ]“ 30000 81797.000 8588.844 19410212 2851 5954 
岂 日 均 交 数 人 | 1000 28 000 3017 2139 3256 一 5954 
全 音节 村 最 小 生 碳 Lj Ee 1500 6052 300 767.326 1520.346 2390 一 5954 
从 单 革 可 遇 大 全 碳 Lj 30300 500000.000 。 32985.127 61030.249 5663 一 5954 
全 个 人 收入 _ 连续 [| 10416.000 99000000000 000 58940691.965 2226598764.237 44241 一 5954 





图 6.69 变量 质量 审核 结果 


单 击 “ 质 量 ” 界 面 ,查看 各 输入 变量 的 质量 ,如 图 6. 70 所 示 , 没 有 数值 缺失 、 空 值 . 空 白 值 
等 问题 。 





完整 字 购 (%) |100% 玩 整 记录 (%): |100% 
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测量 。 高 群 值 。 很 值 。 操作 
0 


缺失 播 补 ， 方 法 “完成 百分比 。 有效 记 录 字符 型 空 值 ”空白 ”空白 值 
5954 





[| 字 耻 
过 6 均 消 旨 全 业 少 连 村 545 无 从 不 国定 100 0 0 0 0 
国 日 均 次 数 少 过 要 201 37 无 ”从 不 国定 100 5954 0 0 0 0 
| 罗 单 芭 消 机 最 4 生 类 人 连续 24 690 无 从 不 固定 100 5954 0 0 0 0 
单 甘 消 费 员 大 全 额 ” 少 连 续 126 122 无 从 不 固定 100 5954 0 0 0 0 
[办 个 人 收入 连续 “连续 人 9 951 无 “人 不 国定 100 5954 0 0 0 0 
图 6.70 各 变量 的 质量 审核 结果 


在 图 形 板 中 应 用 散 点 图 矩阵 对 日 均 消 费 金额 .日 均 次 数 . 单 笔 消 费 最 小 金额 . 单 笔 消 费 
最 大 金额 进行 可 视 化 显示 ,并 以 是 否 存 在 欺诈 行为 作为 标记 , 较 大 的 圆 形 表 示 有 欺诈 行为 ， 


如 图 6.71 所 示 。 


单 笔 消费 最 小 金额 。 单 笔 消费 最 大 金额 
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日 均 消费 金额 日 均 次 数 单 笔 消费 最 小 金额 。 单 笔 消费 最 大 人 金额 

图 6.71 各 变量 的 散 点 图 矩阵 


4 个 变量 形成 矩阵 关系 ,图 6.71 中 的 16 个 图 形 左下 角 与 右上 角 为 横 、 纵 坐标 对 称 。 通 
过 观察 日 均 次 数 与 日 均 消费 金额 散 点 图 .可 以 看 到 呈现 明显 的 聚 类 效应 , 且 日 均 消 费 金 额 较 


低 的 客户 欺诈 行为 较 多 。 


车 徐 半 郑 淹 六 蛤 好 


是 否 


存在 欺诈 
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单 笔 消费 最 小 金额 与 日 均 消费 的 散 点 图 中 ,两 个 聚 类 均 具 有 一 定 的 线性 关系 , 随 着 日 均 
消费 金额 的 增长 , 单 笔 消 费 最 小 金额 也 在 快速 提高 ,但 基 增 长 率 在 下 降 , 即 随 着 日 均 消费 能 
力 不 断 提高 , 单 笔 消 费 最 小 金额 增长 变化 较 慢 。 

单 笔 消费 最 大 金额 与 日 均 消费 金额 散 点 图 中 , 随 着 日 均 消费 金额 的 增长 , 单 笔 消费 最 大 
金额 呈现 先 慢 后 快 的 趋势 。 

日 均 次 数 与 单 笔 消 费 最 小 金额 . 单 笔 消费 最 大 金额 的 散 点 图 中 ,日 均 次 数 不 具有 区 分 能 
力 , 但 单 笔 消费 最 小 金额 具有 更 高 的 区 分 度 ,其 中 单 笔 消费 最 大 金额 和 单 笔 消费 最 小 金额 较 
低 的 情况 下 欺诈 行为 较 多 。 

单 笔 消费 最 小 金额 和 单 笔 消费 最 大 金额 的 散 点 图 中 ,两 者 在 不 同 阶段 呈现 不 同 的 线性 
关系 ,在 单 笔 最 低 消费 金额 增长 的 情况 下 , 单 笔 消费 最 大 金额 变化 并 不 明显 ,但 达到 奇 点 时 ， 
单 笔 消费 最 大 金额 呈 几 何 级 增长 。 

从 各 散 点 图 中 徐 类 分 布 情况 ,可 以 看 出 日 均 消费 金额 \ 单 笔 消费 最 小 金额 单 笔 消 费 最 
大 金额 均 具 有 较 强 的 分 类 能 力 , 如 图 6.72 所 示 。 
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图 6.72 各 变量 的 散 点 图 矩阵 


在 K-Means 聚 类 中 选择 日 均 消费 金额 .日 均 次 数 . 单 笔 消 费 最 小 金额 和 单 笔 消费 最 大 
金额 作为 输入 字段 , 聚 类 数 选 5 个 ,在 “专家 ”选项 卡 中 选择 专家 模式 ,参数 为 默认 值 ,如 
图 6.73 所 示 。 





























图 6.73 K-Means 聚 类 自 变 量 选择 
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运行 模型 得 到 聚 类 的 结果 ,可 以 看 到 模型 的 聚 类 质量 较 高 ,达到 0. 8 的 轮廓 系数 值 ,如 
图 6.74 所 示 。 



































模型 概要 
算法 |K-Means 
输入 |4 
聚 类 |5 
聚 类 质量 
， ， 差 | 中 等 良好 
-1.0 -0.5 0.0 0.5 1.0 
凝聚 和 分 离 的 轮廓 测量 


图 6.74 K-Means 聚 类 模型 结果 


查看 聚 类 的 大 小 ,发 现 最 大 的 类 别 占 比 为 88. 3% ,最 小 的 类 别 占 比 只 有 0.1%, 说 明 聚 
类 的 类 别 数量 并 不 合理 。 通 过 观察 聚 类 中 各 变量 在 聚 类 中 的 重要 性 和 区 分 度 ,发现 日 均 消 
费 金额 单 笔 消费 最 大 金额 和 单 笔 消 费 最 小 金额 的 重要 性 基本 一 致 , 除 88. 3% 之 外 的 几 个 
簇 的 区 别 并 不 明显 ,如 图 6.75 所 示 。 


聚 类 大 小 
2.6% 1.8% 





7.6% 
0.1% 














聚 类 

日 聚 类 -1 

日 聚 类 -2 最 小 聚 类 大 小 s(01%) 

国 聚 类 -3 

四 取 类 -4 a 

回归 类 -5 最 大 聚 类 大 / | 5256(88.3%) 
大 小 的 比率 : 
最 大 聚 类 比 最 小 聚 类 | 1051.20 








图 6.75 K-Means 聚 类 各 类 别 分 布 情况 


保留 模型 的 其 他 参数 不 变 ,K-Means 的 聚 类 数量 改 为 2, 并 重新 运行 模型 ,得 到 新 的 模 
型 结果 ,达到 0. 9 的 轮廓 系数 。 图 6. 76 是 两 种 聚 类 的 详细 分 类 依据 ,从 中 可 以 看 出 90% 的 
用 户 单 笔 消费 最 大 金额 低 于 2 万 元 , 单 笔 消 费 最 小 金额 低 于 326 元 ,日 均 消 费 金额 少 于 
2488 元 ,可 以 视 为 一 般 客户 , 除 此 之 外 的 10% 用 户 为 优质 客户 。 

为 了 查看 两 个 秘 类 下 各 自 变量 的 分 布 情况 ,同时 选中 两 个 类 别 , 在 聚 类 比较 界面 可 以 看 
到 不 同类 在 单 笔 消费 最 大 、 单 笔 消费 最 小 日 均 消费 金额 中 均 有 较 大 的 不 同 ,而 日 均 次 数 几 
乎 没有 差别 ,这 说 明日 均 次 数 重要 程度 最 低 ,如 图 6.77 所 示 。 

为 了 查看 聚 类 中 最 重要 的 两 个 自 变量 之 间 的 关系 ,使 用 图 形 板 分 析 两 者 的 散 点 图 分 布 ， 
用 点 的 大 小 区 分 是 否 存在 欺诈 行为 ,大 的 圆 点 表示 存在 欺诈 行为 。 如 图 6. 78 所 示 , 用 户 分 
为 两 类 : 日 均 消费 低 于 1 万 元 , 单 笔 消费 最 小 金额 低 于 4500 元 为 一 个 簇 类 A, 而 日 均 消 费 
高 于 60 000 元 , 单 笔 最 小 金额 高 于 4500 元 为 男 外 一 个 簇 类 B。 其 中 ,类 A 中 单 笔 消 费 最 小 
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输入 (预测 变量 )j 重 要 性 
@1.0 @0.8 目 0.6 0.4 日 0.2 口 0.0 


聚 类 聚 类 -1 聚 类 -2 




















wo 

(5409)| 

单 笔 消费 最 大 金额 单 笔 消费 最 小 金额 
20 473.52 5145.18 


单 笔 消 费 最 小 金额 ”日 均 消费 金额 
326.22 69 134.74 


日 均 消费 金额 。 单 笔 消 费 最 大 金额 
2488.36 157 159.97 











图 6.76 输入 变量 的 分 类 阔 值 


聚 类 比较 
加 限 类 -1 。 国 聚 类 -2 





单 笔 消费 
最 大 金额 





最 小 金额 





DD- 
单 笔 消费 [| 一 一 


日 均 消费 
金额 





6.77 不 同 聚 类 的 输入 变量 分 布 情况 


金额 低 于 1000 元 的 用 户 中 ,存在 更 多 的 欺诈 行为 ,需要 重点 关注 。 而 类 B 中 单 笔 消费 最 小 
金额 高 于 5000 元 的 用 户 无 欺诈 行为 ,说 明 这 部 分 人 群 为 优质 客户 中 的 最 优 客户 。 

如 图 6. 79 所 示 ,可 将 用 户 分 为 以 下 两 类 用 户 : 日 均 消 费 低 于 10 000 元 , 单 笔 消费 最 小 
金额 低 于 4400 元 , 单 笔 消费 最 大 金额 低 于 9000 元 ; 日 均 消 费 高 于 59 000 元 , 单 笔 消费 最 小 
金额 高 于 4400 元 , 单 笔 消费 最 大 金额 高 于 9000 元 。 其 中 ,后 者 为 优质 客户 ,前 者 为 一 般 客户 。 
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图 6.78 日 均 消费 金额 \ 单 笔 消费 最 大 金额 散 点 图 


存在 欺诈 
©00 














导 季 邯 壮 诊 臧 亏 南 


维 散 点 图 


6.79 日 均 消 费 金 额 . 单 笔 消 费 最 大 金额 . 单 笔 消 费 最 小 金额 的 
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使 用 三 维 散 点 图 展示 日 均 消 费 金 额 . 单 笔 消 费 最 大 金额 . 单 笔 消 费 最 小 金额 之 间 的 关 
系 , 以 及 由 此 构成 的 聚 类 特征 ,可 以 直观 地 看 到 3 个 变量 在 两 种 类 别人 群 中 的 分 布 情况 。 


6.5.8 基于 客户 细 分 的 聚 类 分 析 


根据 用 户 的 历史 消费 记录 ,通过 用 户 的 日 均 消费 金额 .日 均 次 数 等 可 以 划分 用 户 给 银行 
带 来 的 价值 ,通过 用 户 是 否 存在 欺诈 .拖欠 得 分 (由 拖欠 金额 和 拖欠 时 间 综 合 得 到 )、 信 用 评 
分 可 以 衡量 用 户 存 在 和 潜在 的 风险 。 信 用 评分 是 对 用 户 潜 在 风险 的 一 个 总 体 体现 ,包含 了 
用 户 的 人 口 属性 。 对 每 一 个 持 卡 人 可 以 划分 5 类 特征 ,分 别 是 日 均 消费 金额 .日 均 次 数 、. 是 
否 欺诈 .拖欠 得 分 和 信用 评分 。 

持 卡 人 的 5 类 特征 可 以 分 别 进 行 排序 。 其 中 ,日 均 消 费 金 额 .日 均 次 数 、 信 用 评分 3 个 
特征 将 数据 分 级 为 5 部 分 ,并 对 每 一 部 分 的 客户 赋予 1 一 5 的 值 。 例 如 ,对 于 日 均 消 费 金额 ， 
最 高 的 一 组 用 户 赋值 为 5, 中 间 的 3 组 用 户 分 别 赋予 4、3、2, 日 均 消 费 金额 最 低 的 一 组 用 户 
值 为 1。 这 样 处 理 之 后 , 记 日 均 消 费 金额 得 分 为 M ,日 均 次 数 得 分 为 下 ,信用 评分 得 分 为 C。 
对 于 这 三 类 特征 的 用 户 ,得 分 越 高 说 明 客户 的 价值 越 高 ,或 者 风险 越 低 。 

是 否 欺 诈 和 拖欠 得 分 两 类 特征 的 计算 中 ,将 未 产生 欺诈 和 拖欠 的 用 户 特 征 值 记 为 0。 
为 了 加 重 欺诈 行为 对 用 户 的 惩罚 ,将 产生 欺诈 的 用 户 得 分 记 为 5, 无 欺诈 用 户 设 置 为 0。 而 
拖欠 的 用 户 按照 拖欠 得 分 的 高 低 , 从 低 到 高 分 别 赋值 为 1 一 5。 记 处 理 后 的 欺诈 特征 值 为 
A, 拖 欠 得 分 特征 值 为 D。 对 于 这 两 类 特征 ,得 分 越 高 说 明 用 户 的 风险 越 高 。M/F/C/A/D 
特征 计算 方法 如 图 6. 80 所 示 。 










































































lM EE Es a 让 
最 高 | 5 最 多 | 5 最 高 | 5 最 高 | 5 
国 欺诈 | 5 

三 三 | 4 

4 4 4 

要 

3 4 3 2 

无 C 
， ， 欺诈 | 0 最 低 | 1 
无 | 0 
最 低 | 1 最 少 | 1 最 低 | 1 拖欠 
日 均 消 日 均 次 数 信用 评分 是 否 其 诈 拖欠 得 分 


6.80 ”M/F/C/A/D 特征 计算 方法 


使 用 “过 滤器 ”节点 ,将 “客户 号 “卡号 ”等 标识 用 户 个 人 的 变量 过 滤 。 删 除 本 次 分 析 的 
无 效 变量 “拖欠 标识 “拖欠 总 金额 等 字段 ,只 剩 下 与 用 户 人 口 属性 有 关 的 字段 ,如 图 6. 81 
所 示 。 

使 用 "分 级 ?节点 ,将 用 户 的 日 均 消 费 金额 .日 均 次 数 、 信 用 评分 .是 否 欺 诈 、 拖 欠 得 分 进 
行 分 级 处 理 , 得 出 具体 的 M、F、C、A.D 等 级 值 ,每 级 拥有 相同 的 用 户 数量 ,使 用 K-Means 算 
法 按照 用 户 的 价值 和 风险 分 析 用 户 的 具体 分 类 。“ 分 级 ”节点 属性 设置 如 图 6. 82 所 示 。 
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司 1“ 同 | 字段 : 已 输入 13 个 ， 已 过 滤 8 个 ， 已 重 命名 0 个， 已 输出 5 个 
Ee Es 
客户 号 




















名 称 扩展 - LscorE 添加 为 图 语 呈 ”加 前 银 
加 分 故 离 度 10 " 轩 
sam 于 

对 所 有 字段 使 用 相同 的 分 级 











图 6.82 “分 级 "节点 属性 设置 


基于 这 种 特征 计算 方法 ,MF 值 均 高 的 为 高 价值 客户 , 均 低 的 为 低 价值 客户 ; C 值 高 ， 
A.D 值 均 低 的 为 低 风险 客户 ; C 值 低 ,A、D 值 均 高 的 为 高 风险 客户 。 根 据 获 取 的 用 户 交 易 
数据 ,计算 每 个 用 户 的 M、F、C、A.D 值 ,调用 K-Means 聚 类 算法 将 用 户 聚 为 9 个 化 ,如 
图 6.83 所 示 。 


图 


(a “ons @® -@ -@®@ -®@ -@ 
ie“@ 过 滤器 填充 分 级 化 类 型 





国 pa \ 
合 入 
拖欠 历史 ~ 合并 ”拖欠 得 分 从 1 
记录 .xlsx -8 | 
拖欠 时 间 得 分 K-Means IK-Means! 


图 6.83 用 户 分 类 流程 图 


设置 聚 类 数量 为 9, 图 6. 84 显示 模型 的 聚 类 效果 良好 ,在 可 以 接受 的 范围 内 。 表 6. 6 
显示 了 聚 类 后 结果 得 到 9 个 簇 . 各 个 篮 的 编号 以 及 对 应 的 5 个 特征 值 。 


ES 
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模型 概要 
算法 | K-Means 


输入 |5 
聚 类 |9 
































差 | 中 等 良好 
-1.0 -0.5 0.0 0.5 1.0 


凝 肥 和 分 离 的 轮廓 测量 
6.84 聚 类 模型 质量 





表 6.6 M/F/C/A/D 特征 值 聚 类 结果 












































簇 号 M F C A D 
I 1. 81 2.00 下 天 5.00 0.01 
4.41 4.99 3. 90 5.00 4.02 
3 5 4.66 4.08 0.00 0.01 
4 3.15 4.94 1.49 5.00 1.85 
3 2.48 3.04 3.08 0.00 3.64 
6 1.42 3.92 2. 69 5.00 3.12 
7 4.01 1.99 4. 04 0. 00 0.00 
8 2.48 3.04 3.08 0.00 3.64 
9 下 全 4.68 1. 95 0. 00 0.01 


对 于 得 到 的 9 个 得, 每 个 禾 对 应 一 类 用 户 , 用 户 按照 价值 和 风险 分 类 ,如 图 6. 85 所 示 分 


为 9 类 。 
用 户 价值 4 





高 价值 
高 风险 


中 价值 
高 风险 


低 价 值 
高 风险 


低 中 高 用户 风险 
6.85 用 户 细 分 类 别 


高 





中 











按照 5 个 特征 值 的 定义 方法 ,M 值 越 高 的 用 户 ,价值 越 高 ,反之 价值 越 低 ; C 值 越 高 
的 用 户 , 风 险 越 低 ,反之 风险 越 高 ; A、D 值 越 高 的 用 户 , 风 险 越 高 ,反之 风险 越 低 。 通 过 各 个 
聚 类 的 特征 值 比较 ,将 9 个 簇 分 别 划分 类 别 ,结果 见 表 6. 7。 


表 6.7 用 户 分 类 及 对 应 聚 类 徐 号 














价值 /风险 高 风险 中 风险 低 风 险 
高 价值 2 4 3 
中 价值 6 8 四 
低 价值 5 9 
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对 得 到 的 9 类 用 户 ,分别 统 计 各 类 用 户 在 总 用 户 中 的 人 数 和 所 占 百分比 ,得 到 的 结果 见 


表 6. 8。 


表 6.8 各 类 别 用 户 数量 及 所 占 比例 





用 户 类 别 


用 户 数 量 / 人 


用 户 占 比 /% 





低 价 值 、 高 风险 


1961 


32.9 





高 价值 高 风险 


100 


LW 





高 价值 , 低 风 险 


699 


11.8 





高 价值 .中 风险 


111 


1.9 





低 价值 .中 风险 


25 


0.4 





中 价值 .高 风险 


26 


0.4 





中 价值 \ 低 风险 


2298 


38.6 





四 |o|w oa ole|m 


中 价值 ,中 风险 


31 


0.5 








低 价 值 , 低 风险 





703 





11.8 


这 样 的 分 类 考虑 了 用 户 的 价值 和 风险 ,引入 用 户 的 人 口 属性 来 评估 风险 ,可 以 有 效 地 考 
虑 到 用 户 潜在 的 风险 性 ,为 银行 的 信用 卡 业 务 管理 提供 了 参考 。 对 不 同类 别 的 用 户 制 定 不 
同 的 营销 策略 ,可 达到 良好 的 服务 效果 。 例 如 ,应 当 为 “高 价值 , 低 风险 "的 用 户 提供 优质 的 
服务 ,挽留 这 样 的 用 户 , 以 防 其 流失 。 对 于 “ 低 价值 、 高 风险 ”的 用 户 , 则 应 当 适 当 加 强 管 控 ， 


提高 服务 费 。 
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第 / 意 


海底 捞 火 锅 运 营 分 析 


随 着 社会 的 不 断 发 展 , 人 们 的 生活 水 平 不 断 提 高 ,去 餐馆 吃饭 已 经 从 过 去 的 奢侈 享受 变 
成 了 现在 的 家 常 便 饭 ,各 种 新 的 餐馆 、 饭 店 也 如 雨后春笋 般 不 断 涌现 ,饮食 行业 竞争 愈 发 激 
烈 , 并 且 越 来 越 呈现 出 白热化 的 趋势 。 

自 20 世纪 80 年 代 中 期 起 ,火锅 企业 开拓 创新 发 展 , 尤 其 是 近 几 年 来 ,火锅 业 的 迅猛 发 
展 引起 全 社会 的 关注 。 其 中 ,火锅 老字号 企业 焕发 新 春 ,再 塑 辉煌 。 新 型 火锅 企业 锐意 进 
取 , 异 军 突起 。 火 锅 企业 的 连锁 经 营 步伐 逐渐 加 快 ,连锁 店 网 点 数量 不 断 增加 ,连锁 经 营 的 
区 域 也 日 益 拓 展 , 企 业 规模 和 实力 不 断 增强 ,知名 品牌 不 断 涌现 。 

行业 的 快速 发 展 也 带 来 许多 问题 ,火锅 菜品 加 工 工艺 相对 简单 ,非常 容易 复制 。 市 场 上 
只 要 出 现 一 款 畅销 的 菜品 ,很 快 各 个 店 都 竞相 模仿 ,导致 目前 火锅 行业 菜品 单一 化 现象 严 
重 , 没 有 在 原料 和 工艺 上 对 菜品 进行 创新 。 由 于 进入 火锅 行业 的 门槛 较 低 ,对 从 业 人 员 的 要 
求 并 不 高 , 随 之 而 来 的 是 从 业 人 员 整 体 素质 相对 落后 ,没有 过 硬 的 专业 技术 ,服务 理念 、 经 营 
管理 理念 ,复合 管理 能 力 欠 佳 ,从 而 影响 了 整个 行业 的 服务 水 平 。 大 量 的 新 店 不 断 涌现 ,其 
中 不 乏 盲 目 跟 风 者 ,导致 惨淡 经 营 ,给 火锅 业 造 成 负担 ,同时 也 使 得 火锅 店 之 间 的 竞争 日 趋 
激烈 。 

在 企业 的 众多 经 营 活动 中 ,每 天 都 会 产生 大 量 的 数据 ,这 些 看 似 毫 无 关联 的 数据 ,往往 
具有 深层 次 的 紧密 关系 ,对 企业 的 经 营 和 发 展 策略 的 决策 都 会 有 十 分 重要 的 作用 和 意义 。 
随 着 大 数据 时 代 的 来 临 ,数据 分 析 已 经 成 为 企业 的 经 营 管理 者 极 重视 的 一 项 活动 。 数 据 分 
析 可 以 对 客观 情况 进行 正确 的 反映 ,对 企业 经 营 管理 过 程 中 产生 的 数据 进行 监督 ,能 够 有 效 
地 改善 企业 进行 各 项 活动 的 决策 。 本 章 以 海底 捞 火 锅 店 (北京 北太平庄 牡丹 园 店 ) 为 例 进行 
数据 分 析 。 分 析 饭 店 的 相关 数据 ,同时 与 同行 竞争 对 手 做 比较 ,为 饭店 的 未 来 发 展 以 及 营销 
提出 建议 。 





7.1 火锅 相关 数据 抓 取 





利用 Python 脚本 作为 数据 抓 取 工 具 。BeautifulSoup 库 ( 可 以 通过 pip 下 载 ) 提 供 找到 
HTML 中 标签 的 方法 ,利用 标签 得 到 标签 下 的 文本 信息 或 者 标签 的 属性 信息 , 抓 取 海 底 捞 
(牡丹 园 店 ) 的 数据 ,使 用 脚本 为 again. py。 为 了 在 抓 取 的 过 程 中 使 脚本 更 像 是 人 为 的 操作 ， 
而 不 是 仆 虫 在 工作 ,需要 设置 好 请 求 头 (Request Header) 中 的 参数 。 

这 里 设置 了 很 多 备用 参数 ,在 使 用 过 程 中 随机 换 备用 参数 ,可 以 适当 地 提高 在 IP 被 封 
禁 之 前 抓 取 的 数据 量 。 在 “大 众 点 评 ” 的 一 条 用 户 评论 中 可 以 根据 分 析 的 需要 , 抓 取 多 项 数 
据 , 如 图 7. 1 所 示 。 这 些 数据 包括 用 户 昵称 ,用 户 的 贡献 值 ,用 户 对 这 次 用 餐 的 总 评分 (平均 
评分 ) ,用户 对 这 次 用 和 餐 的 口味 、 环 境 、 服 务 的 评价 ,用 户 的 评论 内 容 , 用 户 的 用 和 餐 时 间 ( 评 论 
时 间 ) ,用户 这 条 评论 收 到 的 点 鞠 数 等 。 











本 DOODD 口味 4HEF 好 ) 环境 4( 非 党 池 ) 服务 4( 非 二 好 ) 


又 末 海 底 捞 了 ， 旺 老 蜂 客 了 ， 出 育 的 旺 这 次 没 排队 ， 大 厅 怒 终 在 百 分 之 八 十 的 样子 。 可 能 星 夏 季 的 绢 故 ! 不 过 这 并 
不 影响 我 品尝 美味 ! 还 是 我 钟 委 的 番茄 充 加 牛 油 陈 谤 ! 短 的 过 病 ， 香 茄 洪 千 万 不 要 下 到 的 ， 配 牛 少量 汤 峰 唯美 1 全 


Ti 
所 了 上 
a < 


04-20 海底 捞 火 沉 局 赞 | 回应 | 收藏 “不 当 内 容 


图 7.1 抓 取 页 面 内 容 


根据 这 些 数据 在 HTML 页 面 中 的 标签 信息 编写 代码 ,利用 find find_all 方法 找 标签 ， 
其 中 第 一 个 参数 是 标签 的 名 称 , 第 二 个 参数 是 标签 的 属性 值 ,find 方法 是 找到 符合 筛选 条 件 
的 第 一 个 标签 ,而 find_all 方法 是 找到 符合 筛选 条 件 的 所 有 标签 的 一 个 数组 。 寻 找 用 户 昵 
称 标签 ,然后 将 标签 内 的 文本 内 容 添 加 到 事先 定义 好 的 name 数组 中 。star 中 存储 的 是 用 
户 的 贡献 值 。 用 户 的 贡献 值 在 网 页 中 以 标签 属性 的 形式 存在 ,通过 span 的 class 名 来 反映 。 
time、score、environment、serve,taste、comment、zan 依次 是 存储 时 间 、 总 分 .环境 、 服务 、 口 
味 . 评 论 ,点 赞 数 的 数组 。 

把 抓 取 的 数据 存储 到 数组 后 ,利用 Python 读 写 Excel 的 库 将 数据 存 人 Excel 表 。 将 
Excel 的 对 应 表格 的 值 设 置 为 对 应 的 已 抓 取 数据 。 

接着 抓 取 用 户 喜欢 的 菜 的 数据 ,这 个 数据 也 位 于 用 户 评论 的 页 面 中 ,将 这 项 数据 与 其 他 
数据 分 开 抓 取 ,是 因为 喜欢 的 菜 这 项 内 容 属于 选 填 项 ,而 且 有 很 大 一 部 分 用 户 不 去 填写 喜欢 
的 菜 , 如 果 与 其 他 的 数据 一 同 抓 取 , 会 导致 出 现 较 多 的 数据 空白 。 采 集 的 页 面 如 图 7. 2 所 
示 , 采 集 数据 有 昵称、 时 间 、 喜 欢 的 菜 等 。 

查看 页 面 源 代码 ,发 现 需要 抓 取 数 据 的 标签 及 其 属性 。 在 脚本 运行 的 过 程 中 不 仅仅 是 
要 抓 取 一 个 页 面 中 的 内 容 . 而 是 要 抓 取 很 多 结构 与 标签 相似 的 页 面 内 容 ,因此 写 一 个 循环 ， 
自动 访问 页 面 的 下 一 页 ,一 种 方法 是 根据 页 面 中 的 标签 文本 内 容 得 到 下 一 页 面 的 URL, 也 
可 以 在 写 代 码 时 将 URL 直接 输入 。 
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强 OOOD 和 信 均 ¥100 。 口味 4 乓 守 洒 ) 环境 4 站 守节) 服务 4GE 守 好) 


【位 置 】 在 福 月 园地 站 出 来 步行 10 分 名 左右 ,位置 时 好 找 的 ， 周 边 有 一 个 潮 如 弛 吧 好 像 ， 停 车场 车 位 时 多 的 
【环境 】 店 面 很 大 ,很 干净 侣 洁 。 门 口 等 位 区 有 五 子 棋 折 星星 ,还 有 很 多 小 吃 可 以 吃 。 而 目 小吃 可 以 打包 帝 走 ~ 还 有 
bbe 一 个 小 二 层 ,时 儿童 二 要 区 域 ~ 

【服务 】 服务 一 直 星 海底 接 的 主打 和 ,去 遇 所 的 路 上 录 到 最 务 员 会 主动 打扫 评 需 所 有 专门 的 同 壮 大 你 着 拉手 纸 贡 服 
务 员 时 候 随 叫 随 到 ， 会 主动 帮 你 添加 水 啊 ， 下 和 什 么 的 。 门 口 的 小 吃 可 以 打包 融 回 家 吃 咕 ~ 

【口味 】 首先 说 ， 套 只 都 烹 小 了 _. 原 未 盘子 是 干 的 ， 现 在 合子 专 成 这 样 了 ~ 小 料 儿 丽 也 专 浅 了 南 JI 是 无 糖 的 ,高 
欢 和 的 可 以 叫 服务 员 给 白糖 莉 才 起 好 唱 小 科 儿 自 调 的 ， 超 豚 超 有 好 吃 ! 瑟 反 起 对 ! 1 1 福光 起 夹 1 1 1 疙 之 , 真 的 
好 好 吃 !1 111 

喜欢 的 茶 : 神 画 物 蕊 ”证 虾 滑 。 油 豆 皮 ”和 失 寺 漳 。 自 助 小 料 内蒙 铸 羊肉 ”等 位 时 的 各 种 小 吃 。 巴 沙 鱼 片 


Te@ 
加 . 
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7.2 采集 的 页 面 


7.2 数据 预 处 理 


将 脚本 抓 取 的 数据 在 Excel 中 打开 ,如 图 7. 3 所 示 。 





”hes sy Pt ne a Pe st A has aes 上 1 6 1 
1 irr-start 口 味 4( 非 服 务 4( 非 3 环境 4( 非 Xurr-rank403-31 更 新 于 17-04-12 12:57 joyhao1985 (3) 

2 jirr-star5 口 味 4( 非 # 服 务 4( 非 环 境 4( 非 urr-rank204-11 特别 喜欢 吃 川菜 0 
3 jirr-star5 口 味 4( 非 ?服务 4( 非 2 环境 4( 非 aurr-rank204-11 luckywjh o 
二 |irr-star: 口 味 3( 很 类 服务 4( 非 环境 3( 很 urr-rankt04-11 dpuser_239284105 0 
5 jizr-star5 口 味 4( 非 请 服务 2( 好 ) 环境 2( 好 ) urr-rank<04-10 重 风 的 舌头 0 
jirr-star5 口 味 4( 非 3 服务 4( 非 环 坪 4( 非 六 urr-rank204-10 爱 吃 榴 莲 的 z 小 姐 0 
了 jirr-star 口 味 3( 很 & 服 务 4( 非 环 境 4( 非 1urr-rank204-09 pngfng 0 
8 |irr-start 口 味 4( 非 2% 服务 4( 非 环境 4( 非 Nurr-rank04-09 时 光 者 雨 额 依旧 0 
9 jirr-star4 口 味 4( 非 ?服务 3( 很 丸 环境 3( 很 六 urr-rank504-09 dpuser_306081072 0 
了 jirr-star5 口 味 4( 非 ?服务 4( 非 环 境 3( 很 %urr-rank104-08 学 院 路 路 草 0 
11 |irr-start 口 味 4( 非 服务 4( 非 和 环境 3( 很 和 urr-rankt04-08 南 悟 LSY 0 
了 2jirr-star5 口 味 4( 非 3 服务 4( 非 2 环境 4( 非 2urr-rank504-07 小 洁 _7689 0 
13 |irr-star: 口 味 4( 非 服务 4( 非 环境 4( 非 urr-rank04-07 dpuser_826597765 WD 

14 |irr-star< 口 味 4( 非 服务 4( 非 久 环 境 4( 非 和 urr-rank<04-07 cuijiajia 0 
王 jirr-star 口 味 4( 非 放 服 务 4( 非 客 环 境 4( 扑 放 urr-rank504-06 Xa_6623 7G) 

天 jirr-star: 口 味 3( 很 凡 服 务 3( 很 丸 环境 3( 很 &urr-rank504-06 替 少 666 0 
2 va ar mr a 





图 7.3 脚本 抓 取 的 数据 


可 见 , 原 始 数 据 很 粗糙 ,缺少 列 名 称 ,同时 元 余数 据 和 残缺 数据 都 较 多 ,因此 进行 下 列 
处 理 。 

首先 添加 列 名 称 : 在 第 一 行 对 数据 添加 类 别 说 明 ,分别 为 “评价 均 分 “口味 评分 “服务 
评分 “环境 评分 “用 户 贡 献 值 ”“ 评 价 日 期 ”用户 昵称 ”评价 内 容 “ 评 价 点 赞 数 ”; 去 重 处 
理 : 全 选 , 单 击 “ 数 据 ”“ 删 除 重复 项 ”。 得 到 的 数据 如 图 7. 4 所 示 。 

删除 无 用 数据 ,评论 与 评分 的 分 析 仅 需要 与 评分 有 关 的 前 4 列 和 “评价 内 容 ”, 所 以 保留 
上 述 列 ,删除 其 余 列 。 复 制 一 份 删除 后 的 表格 文件 ,对 复制 后 的 文件 ,删除 评分 相关 的 4 列 ， 
然后 将 文件 另存 为 comments. txt 文件 ,该 txt 文件 即 为 所 有 的 评论 内 容 。 

将 数据 导入 SPSS Modeler 18. 0, 单 击 * 插 入 ”-* 源 ”~~Excel, 选 择 文件 类 型 和 导入 文 
件 。 因 为 这 里 不 需要 “用 户 昵称 交 评 论 内 容 ? 和 “评价 点 赞 数 "等 字段 ,所 以 单 击 * 过 滤 ”, 过 滤 
这 3 个 字段 。 最 后 单 击 “确定 ?按钮 ,如 图 7.5 所 示 。 

可 通过 单 击 “ 插 入 ”~ 输出” 表 ”, 并 运行 该 表 查 看 导入 的 数据 ,如 图 7.6 所 示 。 








画 A | B | C | D | E | F | G 
评价 均 分 口味 评分 服务 评分 环境 评分 用 户 贡 献 企 评价 日 期 用户 昵称 





BEEBEeP eneer 


irr-stars 口 味 4( 非 兰 服 务 4( 直 六 环境 4( 非 半 urr-rank<03-31 
irr-star5 口 味 4( 非 二 服务 4( 非 二 环境 4( 非 二 urr-rank204-11 
irr-star5 口 味 4( 非 站 服 务 4( 非 二 环 境 4( 非 二 urr-rank204-11 
irr-star5 口 味 3( 很 六 服务 4( 非 二 环境 3( 很 六 urr-rank504-11 
irr-star5 口 味 4( 非 二 服务 2( 好 ) 环境 2( 好 ) urr-rank<04-10 
irr-star5 口 味 4( 非 二 服务 4( 非 宝 环 境 4( 非 二 urr-rank204-10 
irr-star5 口 味 3( 很 凡 服 务 4( 非 二 环境 4( 非 Eurr-rank204-09 
irr-star5 口 味 4( 非 服务 4( 非 二 环境 4( 非 辣 urr-rank204-09 
irr-star< 口 味 4( 非 二 服务 3( 很 丸 环境 3( 很 凡 urr-rank504-09 
irr-star5 口 味 4( 非 二 服务 4( 非 二 环境 3( 很 丸 urr-rank104-08 
irr-star5 口 味 4( 非 二 服务 4( 非 守 环 境 3( 很 六 urr-rank504-08 
irr-star5 口 味 4( 非 二 服务 4( 非 二 环境 4( 非 二 urr-rank504-07 
irr-star5 口 味 4( 非 二 服务 4( 非 二 环境 4( 非 二 urr-rank504-07 
irr-star 口 味 4( 非 二 服务 4( 非 二 环境 4( 非 urr-ranke04-07 
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joyhao1985 (3) 
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图 7.4 Excel 初 步 预 处 理 后 的 数据 
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文件 [CUsersadminDesttopr-- 二 所 灿 半月 四 sr 
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图 7.5 设置 Excel* 源 ” 


图 表 (6 个 字段, 5160 条 记录 ) #1 


已 xf ms ODsE 回国 国 EE 





口味 3 很 好 ) 服务 4( 非 党 好 ) 环境 (很 好 ) 
口味 4( 非 常 好 ) 服务 2( 好 ) ”环境 2 好 ) 





口味 3( 很 好 ) 





口味 4( 非 常 好 ) 服务 4( 非 常 好 ) 环境 3( 很 好 ) 








口味 3( 很 好 ) 。 服务 3( 很 好 ) 。 环境 3( 很 好 ) 
口味 4 非常 好 ) 服务 4( 非 常 好 )】 环境 3( 很 好 ) 











口味 评分 环境 评分 

口味 4( 非 常 好) 服务 4( 非 常 好 ) 环境 4( 非 常 好 ) |urrrank45 |03-31 更 . 
口味 4( 非 常 好 ) 服务 4( 非 党 好 ) 环境 4( 非 曲 好 ) urrrank20 04-11 
口味 4 非常 好 ) 服务 4( 非 党 好 ) 环境 4( 丰 党 好 ) urrrank20 04-11 
urrrank5 04-11 
坊 Jurrrank40 ,04-10 
口味 4 非常 好 ) 服务 4( 非 常 好 ) 环境 4( 非 常 好 ) ,urrrank30 04-10 
服务 4( 非 党 好) 环境 4( 夺 常 好 ) urr-rank20 |04-09 
口味 4( 非 常 好 ) 服务 4( 非 常 好 ) 环境 4( 香 党 好 ) urr-rank20 ,04-09 


um-rank5 04-08 
口味 4( 常 好 ) 服务 4( 非 常 好 ) 环境 4( 壬 常 好 ) urr-rank5 04-07 
口味 4( 非 常 好 ) 服务 4( 非 党 好 ) 环境 4( 夺 营 好 ) urrrank5 “04-07 
口味 4( 非 常 好 ) 服务 4( 非 常 好 ) 环境 4( 本 常 好 ) urrrank40 04-07 
口味 4( 非 营 好 ) 服务 4( 非 党 好 ) 环境 4( 丰 党 好 ) urrrank5 “04-06 
Jurr-rank30 |04-06 
lurrrank20 04-05 
口味 4( 非 常 好) 服务 4( 非 党 好) 环境 4( 厘 营 好 ) urrrank30 04-05 
口味 4( 常 好 ) 服务 4( 非 常 好 ) 环境 4( 丰 党 好 ) lurr-rank5 04-05 
口味 4( 非 党 好 ) 服务 4( 非 党 好 ) 环境 4( 丰 常 好 ) urr-rank40 104-05 




















7.6 使 用 SPSS 导入 后 的 数据 
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从 图 7. 6 中 可 以 看 出 ,“ 评 价 均 分 ”的 格式 为 “irr-star * 0”, 其 中 “x* ”为 实际 的 数值 ,所 以 
需要 将 这 个 数值 提取 出 来 。 而 “口味 评分 ”服务 评分 ”和 “环境 评分 ”的 数据 虽然 不 是 数值 
型 ,但 是 数据 含义 明显 且 已 经 离散 成 5 类 ,所 以 不 必 进 行 处 理 。“ 用 户 贡 献 值 ”的 数据 与 “ 评 
价 均 分 ”类似 ,需要 将 最 后 的 数值 提取 出 来 。 而 对 于 “评价 日 期 ”, 元 素数 据 是 离散 到 每 一 天 ， 
这 样 离散 程度 太 高 了 。 考 虑 到 一 般 商家 是 按照 月 度 进行 考核 ,可 以 将 其 处 理 成 以 月 份 为 
单位 。 

单 击 “ 插 入 ”一 “字段 选项 ”一 “导出 ”, 将 “导出 字段 ” 设 为 “评价 月 份 ”, 需 要 将 原始 数据 中 
的 评价 日 期 处 理 为 以 月 份 为 单位 ,这 里 舍弃 了 部 分 数据 格式 不 符合 规范 的 数据 ,并 将 其 处 理 
成 一 1。 在“ 公式” 栏 中 输入 “if(length( 评 价 日 期 ) 二 二 5) then substring_between(1,2, 评 价 
日 期 ) elseif(length( 评 价 日 期 )= 二 二 8) then substring_between(4,5, 评 价 日 期 ) else "一 1" 
endif”, 单 击 “ 确 定 ” 按 钮 ,如 图 7.7 所 示 。 











lL @ FHA x 
@ mn PI 
.为 公式 


模式 ， 图 单 个 口 多 个 


加 导出 字段 : 
| 评价 月 份 














st» E 攻 本 

aa 

公式 : 

jength( 评 价 日 期 ) == 5) then substring_between(1.2, 评价 日 期 ) 


lelseifliength( 评 价 日 期 ==8) then substring_between(4.5, 评价 日 期 ) else 全 
endi 




















图 7.7 数值 化 “评价 月 份 ” 


同样 ,可 以 添加 “ 表 ” 来 查看 字段 。 将 “评价 均 分 ”和 “用 户 贡 献 值 ” 改 为 数字 形式 。 分 别 
添加 “导出 ”节点 ,设置 “导出 字段 "和 “公式 ”为 “评价 均 分 (数字 )”*substring_between(9,9， 
评价 均 分 )”;“ 用 户 贡 献 值 (数字 )”allbutfirst(8, 用 户 贡 献 值 )”。 

继续 添加 “过 滤 ” 节 点 ,已 经 不 需要 “评价 均 分 “用 户 贡 献 值 "? 和 “评价 日 期 "3 个 字段 了 ， 
将 其 过 滤 。 添 加 * 表 ?节点 ,查看 现在 的 数据 ,如 图 7.8 所 示 。 

对 菜品 内 容 做 预 处 理 , 用 到 的 文件 为 前 面 抓 取 到 的 菜品 内 容 。“ 疏 虫 " 抓 取 的 原始 数据 
如 图 7.9 所 示 。 

将 C 列 包 含 菜 名 的 数据 复制 并 粘贴 到 新 的 Excel 表格 中 ,选择 导出 为 txt 文本 文件 , 重 














图 7.8 处 理 后 的 评分 数据 


| | | 呈 天 | [关于 | I | | 4 
16-12-17 草原 上 的 老 滑 牛肉 鸭 血 柠檬 水 豆浆 金针 菇 鲜 鸭 血 手 切 羊肉 
16-06-29 爱 吃饭 的 F， 滑 牛肉 一 根 面 海底 捞 笋 片 午餐 肉 鸭 肠 虾 滑 鱼 片 捞 面 
16-12-16 LyZyTo ， 鸭 血 虾 滑 晤 牛肉 鱼 片 
16-12-12 时 光 溅 落 。 鸭 肠 小 料 鲜 毛 肚 
16-11-11 小 糊涂 _ 姿 一 根 面 滑 牛肉 
16-10-09 Linda_832 滑 牛 肉 海底 捞 牛 内 
16-10-07 kiyoface ， 滑 牛肉 虾 滑 毛 肚 油 豆 皮 鱼 丸 小 料 猪 脑 花 
16-10-06 一 颗 荡 枝 氏 蟹 棒 鲜 虾 滑 滑 牛 肉 无 刺 巴 沙 鱼 鱼 片 
16-10-06 dpuser_25 海底 捞 敌 片 虾 滑 毛 肚 海带 评 毛 肚 统 豆 尖 自助 小 料 龙 利 鱼 片 海底 捞 血 旺 网 舌头 巴 沙 鱼 
16-09-11 挪 若 岩 2 豆浆 豆 皮 手 切 羊肉 鲜 虾 滑 竹笋 锰 知 锅 青 敌 西式 牛 滑 山药 黑 互 桨 商 营 鸭 肠 毛 肚 羊 F 
16-09-10 嗜 血 如 兰 。 牛肉 羊肉 一 根 面 同 牛 内 虾 滑 猪 脑 
16-09-07 一 帆 杰 作 | 滑 牛 内 一 根 面 海底 捞 牛 肉 海底 捞 笋 片 嫩 牛 内 虾 滑 
16-09-07 努力 的 向 E_ 滑 牛肉 一 根 面 海底 捞 牛 肉 鸭 血 毛 肚 
16-09-04 Jay 小 额 ， 一 根 面 嫩 牛 肉 虾 滑 
1 ANR-11 飞扬 的 hea 牛肉 加 抽 面 捷 号 牛 肉 江 尼 牛肉 及 《弹性 直 奸 ) 


图 7.9 “ 怜 虫 > 抓 取 的 原始 数据 


命名 为 meal. txt。 将 该 txt 文件 中 所 有 的 空白 部 分 蔡 换 为 单个 空格 。 下 面 用 Python 脚本 
处 理 该 txt, 代 码 如 下 所 示 。 


#1/usr/bin/python 

#9 -*# 一 coding:utf-8 一 x 一 

word lst = [] 

word dict = {} 

with open( '. /meal. txt') as wf, open("word. txt", 'w') as wf2: 
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for word in wf: 
word_lst. append(word. split(' ')) 
for item in word_lst: 
for item2 in item: 
if item2 not in word_dict: 
word_dict[item2] = 1 
else: 
word dict[item2] += 1 
final dict = sorted(word dict. items(),key= lambda item: item[1],reverse = True) 
for x,y in final dict: 
wf2.write(str(x) + "" + str(y) + "\n") 


上 有 段 代码 读 取 meal. txt 中 的 菜品 名 ,并 统计 每 种 菜品 出 现 的 次 数 。 最 终 输 出 为 word. 
txt, 如 图 7. 10 所 示 , 展 示 了 推荐 数 比 较 多 的 一 些 菜 品 。 

这 里 的 数据 预 处 理 利用 到 前 面 的 word. txt 和 “菜品 . xlsx”, 用 Python 实现 。 选 取 推 荐 
数 大 于 10 的 菜 进 行 关联 分 析 , 将 每 一 个 菜 名 设置 为 新 的 表格 列 名 称 。 
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图 7.10 推荐 数 较 多 的 菜品 


import xlwt 

import xlrd 

# 要 输出 的 表格 

Workbook = xlwt. Workbook( ) 

sheetl = workbook.add sheet('sheetl1',cell overwrite ok= true) 
# 读 取 统 计 的 词 频 

f= open('. /word. txt', 'r', encoding = 'UTF — 8') 

content = f.readlines() 


f.close() 

# 添加 第 一 行 的 菜品 名 
num= 0 

writeNum= 0 


while num < len(content) 

tem = content[num]. find('') 

mealCount = content[num][tem: — 1] # 商 品 数 量 

if int(mealCount)>= 10: # 选 择 数量 大 于 10 的 菜品 
content[ num] = content[num][0:tem] 
Sheet1. write(0, writeNum, content[num]) 
mealTup = mealTup + (content[num], ) 
writeNum += 1 

num+=1 


读 取 抓 取 的 “菜品 . xlsx” 中 的 每 一 个 用 户 的 推荐 菜 , 若 列 名 称 中 的 菜 出 现在 该 用 户 的 推 
荐 菜 中 , 则 将 对 应 的 单元 格 设 为 1, 否则 设 为 0。 


# 读 取 抓 取 的 数据 
workbookl = xlrd. open_workbook('. /菜品 .xlsx') 
worksheets = workbook1. sheet_names() 
worksheet1 = workbook1. sheet_by_name(u' 其 余 的 评价 ') 
num rows = WOrksheet1. nrows 
for curr_ row in range(num rows): 
Tow = worksheet1. row_values(curr_row) # 每 一 行 
mealFlag=0 
while mealFlag < len(mealTup) : 





mealName = mealTup[mealFlag] 
Erys 
row. index( mealName) 
sheetl.write(curr row+1,mealFlag,1) 
except: 
sheet1. write(curr row+1,mealFlag,0) 
mealFlag +=1 
workbook. save( 'meal. xls') 


处 理 后 的 meal. xls 如 图 7. 11 所 示 。 





4| _ A | | | a | ,| | I er Ral WS | 

让 | 滑 牛 肉 一 根 面 ”网 血 枉 榜 水 掉 面 海底 氨 禾 片 午餐 肉 。 豆花 园 肠 证 滑 后 牛肉 毛 肚 

1 0 0 1 1 0 0 0 0 0 0 0 0 
3 1 0 1 0 0 0 1 时 0 1 1 0 0 
4 | 0 0 0 1 0 0 0 0 0 0 1 1 0 
[ 悦 | 0 0 0 0 0 0 0 0 0 1 0 0 0 
6 | 1 0 1 0 0 0 0 0 0 0 0 0 0 
本 | 1 1 0 0 0 0 0 0 0 0 0 0 0 
8 | 1 0 0 0 0 0 0 0 0 0 1 0 1 
9 | 1 0 0 0 0 0 0 0 0 0 0 0 0 
10 0 0 0 0 0 0 1 0 0 0 1 0 1 
11| 0 0 0 0 0 0 0 0 0 1 0 0 1 
12| 0 0 1 0 0 0 0 0 0 0 1 1 0 
1 1 1 1 0 0 0 1 0 0 0 1 1 0 
14| 1 1 1 1 0 0 0 0 0 0 0 0 1 
15 0 0 1 0 0 0 0 0 0 0 1 1 0 
16| 0 0 0 0 0 1 0 0 0 0 0 0 0 
17| 0 0 0 0 0 0 0 0 0 0 0 0 0 
18| 1 1 1 1 0 0 0 0 0 0 0 0 0 
19| 1 0 0 1 0 0 0 0 0 0 0 1 0 
20| 0 0 0 0 0 0 0 0 0 0 1 0 0 
21| 0 1 0 0 1 0 0 0 0 1 1 0 1 
22| 1 1 1 1 0 0 0 0 0 1 1 0 0 





图 7.11 处 理 后 的 推荐 菜品 统计 


7.3 数据 分 析 


7.3.1 海底 捞 运 营 分 析 


为 了 能 够 深入 地 了 解 海底 捞 店 铺 的 经 营 情 况 , 分 析 影 响 该 店 生意 的 关键 因素 ,并 且 通 过 
和 其 他 店铺 对 比 得 出 海底 捞 的 优势 和 劣势 。 首 先 将 处 理 过 的 有 关 海 底 捞 ( 牡 丹 园 店 ) 的 数据 
导入 Watson, 提 出 问题 “What drives 总 分 ?”, 结 果 如 图 7. 12 所 示 。 

与 预期 的 一 致 ,口味 \ 环 境 、 服 务 是 3 个 主要 的 影响 因素 。 首 先 分 析 口 味 这 一 最 主要 因 
素 的 影响 。 在 Watson 中 输入 “口味 and 总 分 ?可 以 看 到 一 些 可 以 提问 的 问题 的 提示 ,选择 
问题 “How does the number of Rows compare by 口味 and 总 分 ?”, 得 到 图 7. 13 所 示 的 结果 。 

图 7.13 反映 出 在 口味 为 4 的 评价 中 , 绝 大 部 分 的 顾客 都 给 出 了 5 分 或 者 4 分 的 总 评分 
数 , 所 以 口味 对 于 一 家 火锅 店 而 言 是 至 关 重 要 的 。 此 时 引入 时 间 维 度 ,首先 考虑 时 间 维 度 与 
口味 的 关系 。“What are the number of each 口味 and 时 间 ?”, 如 图 7. 14 所 示 。 

从 图 7.14 看 到 ,明显 的 事实 是 2014 年 的 顾客 要 明显 多 于 2015 年 与 2016 年 的 顾客 ,这 
里 反映 出 了 这 家 火锅 店 存在 的 问题 ( 接 下 来 会 加 以 分 析 , 此 处 继续 分 析 口 味 与 时 间 关系 ) ,可 
以 为 开设 分 店 以 及 制定 新 的 策略 提供 参考 。 首 先 通过 统计 2013 年 以 及 2012 年 的 顾客 人 数 
发 现 2014 年 的 人 数 并 不 是 突然 的 井喷 ,而 是 延续 着 2012 年 以 及 2013 年 的 销量 ,所 以 分 析 
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图 7.12 影响 海底 捞 生 意 的 因素 
How does the number of Rows 加 compare by 口味 四 and 总 分 加 ? 
Fihered by 口味 5selected 四 ) 
+ 
ae 起 分 
zx 国 ， 
x 图 : 
tax 国 : 
了 ex 国 ， 
Bi 国 * 
| x 
Ss Kk 
Ew 
ao 
oo 
20 
。 
o 1 2 3 4 
D 味 
图 7.13 口味 以 及 总 分 对 应 数量 图 
What are the number of each 口味 @ and 时 间 四 ? 
Fitered by 口味 5 selected (7) 
+ 
Rows 
9 ss 


图 7.14 口味 以 及 时 间 对 应 数量 图 








2014 一 2016 年 这 段 时 间 是 什么 导致 了 该 店 的 销量 下 降 。 在 “大 众 点 评 ”" 上 有 商家 信息 的 北 
京 海淀 区 北太平庄 地 段 共 有 火锅 店 48 家 ,在 2014 年 之 后 出 现 的 店铺 共有 32 家 ,其 中 井 格 
老 灶 、 四 川 老 巷 子 、 宽 板 使 老 灶 火锅 、 沸 炉 火 锅 这 些 店 的 销量 较 突出 。 在 这 个 案例 中 ,由 于 只 
是 抓 取 网 站 上 的 数据 ,所 以 不 能 获得 真实 销量 的 数据 ,以 一 段 时 间 内 的 总 评论 数 为 依据 , 假 
设 销 量 是 与 总 评论 数 正 相关 的 ,从 而 推测 出 各 个 火锅 店 销量 的 情况 。 

共 抓 取 20 家 店 的 数据 ,图 7. 15 是 各 店 建 店 以 来 的 平均 月 评论 数 ( 这 20 家 店名 依次 为 
井 格 老 灶 、 全 香 阳 坊 .口福 居 、 四 川 老 巷子 .大 得 测 肉 、 宽 板 幕 老 灶 、 小 牛 海 记 、 小 码头 、 欢 乐 牧 
场 , 池 记 串 吧 、 沸 炉 火 锅 ,海底 捞 、 牡 丹 园 测 肉 、 玉 林 串 串 香 、 老 门框 . 芦 月 轩 、 蒸 汽 石 锅 鱼 、 虾 
吃 虾 测 、 雪 中 鲜 渔 村 、 黔 道 贵州 ) 。 


How do the values of 平均 月 评论 埃 compare by 店 避 ? | 
可 各 
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图 7.15 各 店 自 建 店 以 来 平均 月 评论 数 
其 中 ,海底 捞 、 沸 炉 火 锅 两 家 店 的 平均 月 评论 数 明显 多 于 其 他 店铺 ,而 图 7. 16 显示 了 各 
店 2016 年 的 总 评论 数 。 


How do the values of 16 年 评论 数 中 compare by 店 己 ? 
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图 7.16 各 店 2016 年 的 总 评论 数 


可 以 很 明显 地 看 到 小 牛 海 记 在 2016 年 的 总 评论 数 膛 遥 领 先 ,而 海底 捞 店 的 总 评论 数 虽 
然 位 居 第 二 位 ,但 与 一 些 其 他 火锅 店 ( 如 四 川 老 巷子 、 黔 道 贵州 等 ) 的 差距 却 并 不 大 。 再 结合 
之 前 海底 捞 2014 年 的 评论 数 与 2015 年 和 2016 年 的 对 比 可 以 发 现 ,海底 捞 ( 牡 丹 园 店 ) 的 竞 
争 力 已 经 大 不 如 前 , 且 正 处 在 一 个 下 降 期 。 也 就 是 说 ,从 总 的 顾客 数量 来 讲 , 在 这 个 地 段 并 
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没有 显著 减少 。 只 不 过 ,海底 捞 ( 牡 丹 园 店 ) 的 一 部 分 顾客 被 其 他 的 该 地 段 火 锅 店 瓜分 了 。 
如 果 考 虑 再 开设 一 家 新 的 火锅 店 ,一 定 要 选 在 一 个 火锅 店铺 相对 不 那么 密集 的 地 段 ,以 减少 
竞争 ,同时 又 要 兼顾 到 交通 、 人 流量 等 因素 ,确保 有 一 定 的 消费 人 群 。 


7.3.2 店铺 选 址 分 析 


为 了 避免 火锅 业 盲目 跟风 现象 的 出 现 ,如 果 海 底 捞 想 要 开设 新 的 分 店 ,需要 考虑 上 面 提 
到 的 交通 、 人 流量 .竞争 以 及 自身 的 因素 ,为 了 更 好 地 分 析 和 选择 开店 位 置 ,可 以 抓 取 海淀 区 
的 其 他 行政 区 的 店铺 信息 以 及 一 些 热 门 行政 区 的 店铺 信息 。 因 为 需要 规避 开 其 他 的 海底 捞 
火锅 店 ,所 以 抓 取 的 都 是 尚未 开设 海底 捞 火 锅 店 的 区 域 中 前 三 位 的 店铺 信息 。 抓 取得 到 的 
数据 处 理 后 如 图 7. 17 所 示 。 











a a 中 v » s 2 s a = 1 4 
了 店名 所 在 区 域 。 “16 年 总 评论 煞 口味 环境 服务 人 均 团购 外 送 总 评论 数 区 域 总 评论 
和 | 再 记 夫 三 放 避 (加 明 国 百 生 店 ) 家 业 大 学 本 区 6 3 3 7 有 无 a68 -243 
如 | 是 中 是 测 ( 农 大 店 ) 农业 大 学 西区 317 9 4 8&4 昭 有 有 B18 2463 
和 | 永 都 如 认 革 蝎子 (农大 店 ) i 398, 9 8,8, 82 79 有 有 777 2463 
于 | 六 及 侈 话 重 庆 私房 鱼 避 ( 北 妖 席 路 后 237 a 了 了 7.6 到 有 无 1813 3958 
5 周全 色光 Ea ein) 本 人 53 9 8.9 8.9 98 有 、 无 1766 3958| 
了 名 全 二 117 了 .8| 7.3 了 .1 102 有 有 379 3958| 
和 ( 知 着 路 店 id 和 1483 9.1 9 3 99 有 无 6176 13276 
入 | 友 仁 居 老 北京 凋 羊 内 (知春 路 店 ) 知春 器 496 8.1 了 .3 了 .4 ?6 有 无 3071 13276 
10| 民 - 洛 人 村 店 ) 五 道口 4 7.6 .4 7 7 有 无 4032 13727| 
Pri (DD 五 道口 550 84 84 4 101 有 无 16 13727| 
Ea 让 汇 店 ) 中 关 村 1120, 8.6 3 78 人 无 有 5734 12174 
人 中 关 村 1140 3 8,5) 8&1 2 有 无 4405 12174 
天 | 川 量 是 哺 (新 中 关 购 物 中 关 村 160 7.5 6.6 66 人 无 无 2035 12174 
葬 | 四 川 位 火锅 人 双 并 1620 8,3| 8.1 7.9 93 无 无 9007 17085 
二 人 ( 双 并 施 舰 店 ) 网 提 1500， 91 8.5 8.7 125 有 无 4550 17085 | 
9| 妈 王 府 ( 线 杨 柳 店 ) 观 并 1440, 9 3.1 &2| 人 有 有 3528| 17085 
18) i 避 ( 卓 展 店 ) 五 样 松 2 如 EE 9 9 110 有 无 如 70 10105 
到 | 竹 园 村 火锅 五 样 梳 560, 7.8| 7.1 7 84 无 无 3286 10105 
EE 五 覃 松 S580, 3.5 84 &l 88 有 无 2749 10105 
2 公 村 6560, 8 18 77 路 有 无 2919 9l74 
中 | 重 牛 试 店 》 魏公村 3120 92| 1 3 名 有 无 4085 9174 
四 人 心 店 ) 各 公 村 740 8.7 8.5 7.9 87 有、 无 2171 9174 
24 阿 | 田村 560 8.5， 7.5 7.5 37 有 有 1398 2311 
El 田村 260 8.5| 3.1 8&1 98 有 无 913， 2311 








图 7.17 各 区 域 前 三 位 的 店铺 信息 


将 数据 导入 Watson analytics, 数 据 评 分 接近 90% ,为 优良 数据 。 因 为 2016 年 总 评论 
数 最 能 反映 店铺 在 2016 年 的 火爆 程度 ,所 以 提出 问题 “What drives 2016 年 总 评论 数 ”, 得 
到 图 7. 18。 


What drives 2016 总 评论 部 全 ? 
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7.18 对 于 各 店铺 而 言 2016 年 总 评论 数 的 影响 因素 


第 7 章 海底 捞 火 锅 运 营 分 析 





对 于 火锅 店 来 说 ,最 关键 的 影响 因素 是 服务 和 所 在 区 域 , 其 次 是 总 评论 数 (对 应 这 家 店 
积累 的 口碑 与 顾客 资源 ) 、 环 境 和 口味 ,至 于 能 否 进行 团购 ,是 否 配 送 外 卖 以 及 人 均 消 费 金 
额 ,这 些 并 不 是 影响 一 家 店 受 欢迎 程度 的 主要 因素 。 因 此 ,分 析 2016 年 总 评论 数 和 所 在 区 
域 的 关系 ,提出 问题 “What are the values of 2016 年 总 评论 数 for each 所 在 区 域 ”, 得 到 结 
果 , 如 图 7. 19 所 示 。 


What are the values of 2016 年 总 评论 数 @ foreach 所 在 区 域 @ ? 








图 7.19 反映 各 区 域 人 流量 的 总 评论 数 图 


从 图 7. 19 中 可 以 看 出 , 双 井 、 五 棵 松 以 及 魏公村 是 2016 年 生意 最 好 的 区 域 ,其 次 是 大 
钟 寺 、 中 关 村、 知春 路 ,五 道口 等 区 域 。 那 么 ,为 了 获取 更 多 的 客 源 , 优 先 分 析 生意 最 好 的 区 
域 。 图 7. 20 是 双 井 区 域 口味 .环境 .服务 和 人 均 消 费 与 2016 年 总 评论 数 的 关系 。 

通过 这 些 数据 可 以 推测 , 双 井 这 个 区 域 中 口味 、 环 境 、 服 务 , 尤 其 是 人 均 消 费 适中 的 店 反 
而 是 最 受 欢迎 的 ,海底 捞 的 服务 的 优势 很 难 发 挥 ,并 且 可 以 看 到 双 井 这 里 抓 取 的 代表 性 的 店 
铺 的 2016 年 总 评论 数 是 比较 接近 的 ,也 就 是 说 ,竞争 相对 激烈 ,所 以 双 井 并 不 适合 海底 捞 开 
设 新 的 分 店 。 

类 似 地 ,可 以 分 析 魏 公 村 和 五 棵 松 区域 。 可 以 看 到 ,在 魏公村 区 域 存在 着 一 家 生意 火爆 
的 火锅 店 一 一 重 八 牛 府 , 其 他 火锅 店 竞争 不 过 这 家 火锅 店 ,而 且 这 家 店 的 口味 、 服 务 以 及 环 
境 都 在 9 分 以 上 ,人 均 消 费 对 销量 的 影响 并 不 大 ,虽然 海底 捞 可 能 会 在 与 这 家 店 的 竞争 中 处 
于 下 风 , 但 重 八 牛 府 与 其 他 火锅 店 之 间 差 距 最 大 的 地 方 是 服务 ,也 就 是 说 ,海底 捞 的 优势 有 
发 挥 之 处 ,而 且 该 地 区 的 人 流量 有 一 定 的 保证 ,所 以 可 以 考虑 在 魏公村 建设 分 店 。 五 棵 松 区 
域 中 影响 最 大 的 因素 是 人 均 消 费 ,而 海底 捞 处 于 一 个 不 占 优势 的 人 均 消 费 区 间 ,其 次 的 因素 
是 服务 与 环境 ,海底 捞 的 环境 因素 也 不 占 优势 ,服务 因素 占 优势 ,这 样 的 区 域 也 不 是 很 适合 
海底 捞 开 设 新 的 分 店 店铺 。 

再 根据 区 域 与 服务 的 关系 分 析 , 如 图 7. 21 所 示 。 

因为 这 两 个 因素 是 影响 最 大 的 因素 ,同时 海底 捞 的 优势 也 在 于 服务 ,所 以 根据 这 幅 图 进 
一 步 分 析 。 魏 公 村 \ 西 三 旗 、 知 春 路 ,五 道口 ,中关村 中 服务 因素 可 以 对 销量 有 明显 影响 , 比 
较 适 合 海底 捞 这 种 服务 方面 有 优势 的 店铺 ,再 加 上 之 前 的 对 人 流量 较 大 的 区 域 的 分 析 ,推荐 
在 魏公村 开设 新 的 店铺 。 

作为 一 家 火锅 店 ,为 了 能 够 获取 更 多 的 利润 ,就 需要 得 到 更 多 的 客户 。 一 般 来 说 ,对 于 
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How do the values of 口味 @@ compare by 2016 年 总 评论 数 @ and 所 在 区 域 @ ? 
Filtered by 所 在 区 域 : 双 井 四 
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图 7.20 双 井 区 域 口味 .环境 .服务 和 人 均 消 费 与 2016 年 总 评论 数 的 关系 





How do the values of 2016 年 总 评论 数 四 compare by 所 在 区 域 @ ? 
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图 7.21 各 区 域 .服务 与 2016 年 总 评论 数 的 关系 


饮食 行业 来 说 ,菜品 口味 是 衡量 店铺 是 否 受 欢迎 的 关键 因素 ,所 以 可 以 结合 大 众 点 评 网 站 上 
给 出 的 推荐 菜 做 出 关于 菜品 的 营销 建议 。 

如 图 7. 22 所 示 ,根据 预 处 理 得 到 的 word. txt 以 及 大 众 点 评 的 推荐 菜 找 到 受 欢迎 程度 
较 低 的 菜 ,包括 简阳 鱼 .金针菇 .香蕉 酥 . 猪 脑 .牛肉 丸 ` 简 州 鱼 . 拉 面 以 及 未 上 榜 的 菜品 。 这 
些 菜 不 那么 受 欢迎 可 能 是 因为 这 些 菜 不 适用 于 火锅 这 种 毫 饪 方式 ,也 可 能 是 因为 本 店 的 对 
应 菜品 进货 源 不 够 好 ,导致 菜品 质量 存在 一 些 问 题 ,所 以 菜品 没有 达到 应 该 有 的 受 欢迎 程 
度 ,还 有 其 他 的 可 能 性 ,为 了 进一步 了 解 ,可 以 分 析 竞 争 对 手 店 中 的 顾客 喜欢 的 菜 的 情况 ( 主 
要 是 考虑 两 家 店 中 相同 的 菜 的 受 欢迎 程度 )。 此 处 抓 取 主要 竞争 对 手 之 一 一 一 小 牛 海 记 潮 
汕 牛 肉 店 ( 牡 丹 园 店 ) 的 喜欢 的 菜 的 数据 ,处 理 之 后 如 图 7. 23 所 示 。 
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图 7.22 菜品 及 受 欢 迎 程度 


同样 要 结合 大 众 点 评 网 站 上 给 出 的 推荐 菜 情况 。 对 比分 析 , 发 现金 针 菇 以 及 年 糕 ., 米 
糕 .香蕉 酥 这些 点 心 类 的 食物 的 受 欢迎 程度 在 这 两 家 店 都 相对 较 低 , 所 以 可 以 考虑 适当 减少 
这 些 种 类 菜品 的 储备 量 , 还 可 以 看 到 牛肉 丸 在 小 牛 海 记 潮汕 牛肉 店 的 受 欢 迎 程度 要 好 于 在 
海底 捞 火 锅 店 的 受 欢迎 程度 ,所 以 有 可 能 是 小 牛 海 记 潮汕 牛肉 店 的 货源 更 好 一 些 , 也 有 可 能 


152 





数据 挖掘 实 




















案例 分 析 
边 鱼 372 1 全 是 注 1 
i 
三 味 鱼 视 79 1 Ee 1 
可 杜 汤 67 汤 损 1 
国术 53 廉 1 四 
韩 鸭 血 53 猪肉 尖 根 饺子 1 
鸭 血 53 现 汕 炸 豆 皮 1 + 
羊肉 45 京 条 1 
芒果 汁 19 大 头 鱼 1 
油 豆 皮 17 福 华 肥 牛 1 全 
到 年 12 Rk 1 
友 侧 彰 11 国生 菜 1 四 
Ed 11 要 1 
和 着 徐 11 十 豆 泥 击 子 1 
殷 耳 汤 10 威 篇 蔗 1 
鸭 肠 10 生菜 1 
红 著 7 亲鱼 1 + 
ka 
晶 
Em. Ma 
洋 菜 ， 吊 龙 4 ”的 模 边 鱼 1 + 
虾仁 黄瓜 4 麻 福 回 鱼 1 
烛 米 伦 4 芍 著 计 1 四 
a 
自助 小 料 4 | 
有 昔 菜 手 捧 面 1 
着 2 A 。 
Fi 2 麻 和 六 1 
站 饼 2 金针 菇 1 本 
腐竹 2 豆 关 汤 1 
和 2 面 1 
李 丸 2 全 1 
向 2 EE 措 1 
+» 
a 
鲜 睡 片 1 陈 阿婆 米粒 1 下 
海 三 鲜 1 长 上 Y 
小 让 1 +» 
于 1 和 
内 豆角 饺子 1 ”在 1 


图 7.23 小 牛 海 记 潮汕 牛肉 店 菜品 受 欢 迎 情况 


是 这 家 店 的 牛肉 丸 调味 处 理 的 方式 更 美味 。 为 了 深入 分 析 ,在 小 牛 海 记 潮汕 牛肉 店 的 推荐 
菜 中 单 击 后 弹出 的 推荐 评论 页 面 中 抓 取 有 关 牛 肉 丸 的 推荐 的 评论 。 

抓 取 小 牛 海 记 潮汕 牛肉 店 的 有 关 牛 肉 丸 推荐 的 评论 使 用 的 脚本 与 之 前 使 用 的 抓 取 数 据 
的 脚本 类 似 ,只 需要 根据 网 页 的 具体 的 URL 以 及 页 面 标签 对 代码 做 出 部 分 修改 。 根 据 抓 
取 到 的 内 容 提取 词 频 , 绘 制 标签 云图 如 图 7. 24 所 示 。 


一 盘 三 花 上 来 下 次 不 况 不 大 丰富 丸 于 主打 五 花 他 家 代金 优惠 位 置 便宜 值得 
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附近 陈 阿婆 隔 皮 餐厅 鲜嫩 麻 效 


7. 24 小 牛 海 记 潮汕 牛肉 店 评论 标签 云图 


首先 ,可 以 忽略 牛肉 、 肉 丸 这 两 个 不 能 够 展示 顾客 感受 的 词汇 ,之 后 发 现 潮汕 火锅 、 锅 
底 、 味 道 .口感 这 几 个 词 的 词 频 较 高 ,可 以 据 此 推测 ,这 家 店 的 牛肉 丸和 店内 的 一 些 锅 底 十 分 
搭配 ,而且 牛 肉 丸 的 味道 和 口感 都 很 好 ,海底 捞 如 果 也 想 让 自己 店内 的 牛肉 丸 更 受 欢迎 ,可 
以 考虑 增加 与 之 配套 的 锅 底 ,也 可 以 考虑 引进 口感 更 好 的 牛肉 丸 。 
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此 外 ,还 可 以 看 到 在 海底 捞 店 中 , 简 州 鱼 以 及 简阳 鱼 相对 不 那么 受 欢迎 ,反观 小 牛 海 记 
潮汕 牛肉 店 中 最 受 欢 迎 的 就 是 梭 边 鱼 , 那 么 海底 捞 也 可 以 考虑 更 换 店内 鱼 类 的 品种 ,例如 将 
简 州 鱼 换 成 梭 边 鱼 。 从 菜品 的 角度 出 发 ,还 可 以 考虑 菜品 之 间 的 相关 性 ,分 析 各 种 菜品 之 间 
的 相关 性 ,从 而 更 好 地 做 出 菜品 推荐 。 


7.4 菜品 关联 分 析 
根据 大 众 点 评 网 站 上 用 户 填 写 的 喜欢 菜 的 信息 进行 菜品 关联 分 析 , 如 图 7. 25 所 示 。 
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eh 【位 置 】 在 杜 及 园地 猴 站 出 来 步行 10 分 神 左 右 ， 位 置 和 好 找 的 ， 周 边 有 一 个 潮汕 弛 吧 好 像 ， 停车 场 车 位 拓 多 的 ， 
和 【环境 】 店 本 很 大 ,很 干净 正法， 门口 等 位 区 有 五 子 柑 折 星星 , 还 有 很 多 小 吃 可 以 吃 。 而 且 小 吃 可 以 打包 带 走 -还 有 
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04-19 海底 撑 火 如 号 车 | 回应 | 收藏 | 不 当 内 容 
图 7.25 大 众 点 评 网 站 截图 


菜品 关联 分 析 的 目的 是 找到 用 户 的 推荐 菜 之 间 的 关系 。 在 抓 取 的 数据 中 ,每 个 用 户 的 
每 个 推荐 菜 都 分 布 在 一 个 单元 格 中 ,没有 统一 的 列 名 称 , 这 样 的 数据 导入 SPSS Modeler 
后 ,会 因为 没有 统一 列 名 称 而 无 法 进行 分 析 。 需 要 将 所 有 的 菜品 统计 成 为 列 名 称 ,并 看 每 一 
个 用 户 的 推荐 菜 是 否 出 现在 列 名 称 中 , 若 出 现 , 则 设 为 1, 反之 设 为 0。 

对 数据 进一步 预 处 理 利 用 到 前 面 的 word. txt 和 “菜品 . xlsx”, 用 Python 实现 。 选 取 推 
荐 数 大 于 10 的 菜 进行 关联 分 析 , 将 每 个 菜 名 设置 为 新 的 表格 的 列 名 称 , 并 读 取 抓 取 的 * 菜 
品 . xlsx” 中 的 每 一 用 户 的 推荐 菜 , 若 列 名 称 中 的 菜 出 现在 该 用 户 的 推荐 菜 中 , 则 将 对 应 的 单 
元 格 设 为 1 ,否则 设 为 0。 

#1!1/usr/bin/python3 


import xlwt 
import xlrd 


# 要 输出 的 表格 
workbook = xlwt.Workbook() 
sheet1l = workbook.add sheet('sheetl1',cell overwrite ok = True) 


# 读 取 统 计 的 词 频 

上 = open('./word.txt', 'r',encoding = 'UTF — 8') 
content = f.readlines() 

f.close() 
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# 添加 第 一 行 的 菜品 名 


num = 0 
writeNum = 0 
mealTup = () # 当前 输出 的 所 有 菜品 


while num < len(content) : 

tem = content[num].find('') 

mealCount = content[num][tem:—1] # 菜品 数量 

if int(mealCount) >= 10: # 选取 数量 大 于 10 的 菜 
content[num] = content[num][0:tem] 
sheet1. write(0, writeNum, content[num]) 
mealTup = mealTup + (content[num],) 
writeNum += 1 

num += 1 


# 读 取 抓 取 的 数据 

Workbookl = xlrd.open_workbook('. /菜品 .xlsx') 
worksheets = workbook1. sheet_names() 

worksheet1 = workbook1. sheet_by_name(u' 其 余 的 评价 ') 


num rows = worksheetl.nrows 
for curr_row in range(num rows): 
row = worksheetl.row values(curr_ row) # 每 一 行 


mealFlag = 0 
while mealFlag < len(mealTup) : 
mealName = mealTup[mealFlag] 
try: 
row. index(mealName) 
sheet1. write(curr_row+ 1,mealFlag,1) 划 该 用 户 有 推荐 , 设 为 1 
except: 
sheet1. write(curr_row+ 1,mealFlag,0) 
mealFlag += 1 
workbook. save( 'meal. xls') 


处 理 后 的 meal. xls 如 图 7. 26 所 示 。 
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图 7. 26 “Excel 离散 化 后 的 数据 


ooo2o0002022o000000020o0 


o-oo000002so0220o02000000 
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然后 将 该 表格 导 和 人 SPSS Modeler 18.0, 单 击 “ 插 入 ”~“ 源 ”~Excel, 选 择 文件 类 型 和 导 
入 文件 。 设 置 数据 类 型 为 “分 类 ”, 这 里 只 有 “0” 和 “1” 两 种 值 ,所 以 也 可 以 设 为 “标志 ”。 添 加 
“类 型 "节点 ,这 里 需要 比较 所 有 字段 间 的 关系 ,所 以 将 所 有 字段 的 角色 都 设 为 “任意 ”, 如 
图 7. 27 所 示 。 








UUSEESI 





回 查 看 当前 字段 ”人 查看 未 使 用 的 字段 设置 








图 7.27 设置 “类 型 "节点 


单 击 “ 持 入 ”一 “ 建 模 ”一 Apriori, 设 置 Apriori 节点 中 的 “最 低 条 件 支 持 度 ” 为 5.0,“ 最 小 
规则 置信 度 ? 为 10.0, 单 击 “ 运 行 ” 得 到 结果 模型 。 双 击 模型 查看 ,如 图 7. 28 所 示 。 按 照 * 支 
持 度 ”排序 , “支持 度 ” 指 含有 前 后 项 的 记录 在 总 体 中 的 占 比 ,可 以 看 出 推荐 菜 的 排名 。“ 滑 牛 
肉 “ 海 底 捞 牛肉 "和 "一 根 面 " 最 受 欢迎 。 其 次 选择 按照 “规则 支持 ”排序 “规则 支持 ” 指 的 是 
前 项 和 后 项 同时 出 现 的 记录 在 总 体 的 占 比 。 这 里 商家 可 以 针对 那些 经 常 一 起 出 现 的 菜 , 设 
置 一 些 菜 的 套餐 ,例如 ,可 以 推出 * 滑 牛肉 “海底 捞 牛 肉 ”" 和 "一 根 面 "3 个 菜 的 组 合 菜 ,因为 
3 个 菜 中 任意 两 个 都 高 频 地 同时 出 现 。 也 可 以 推出 * 滑 牛肉 "和 “网 血 ” 的 组 合 菜 ,因为 这 两 
个 同时 出 现 的 概率 达到 18. 628%。 商 家 同样 可 以 根据 "规则 支持 ”和 “和 置信 度 ” 的 排序 进行 
菜品 的 相关 推荐 。 例 如 ,在 用 户 点 了 “ 柠 榜 水 ”但 未 点 “ 滑 牛 肉 ” 的 时 候 , 可 以 显示 “点 了 柠檬 
水 的 用 户 有 58.781% 也 点 了 滑 牛 肉 ”; 在 点 了 “海底 捞 算 片 ”而 未 点 “ 滑 牛 肉 ” 的 时 候 , 可 以 显 
示 “ 有 57.993% 的 用 户 还 点 了 滑 牛 肉 "。 通 过 在 用 户 点 菜 的 时 候 进行 关联 推荐 ,增加 相关 菜 
品 的 销售 量 。 

根据 建 模 的 结果 ,将 相同 的 前 项 综合 在 一 起 ,进一步 进行 数据 预 处 理 。 单 击 建 模 结 果 中 
的 “将 模型 复制 到 剪贴 板 ”, 粘 贴 到 result. txt, 将 所 有 空白 区 域 替 换 为 单个 空格 ,然后 利用 
Python 处 理 该 文本 文件 ,将 相同 前 项 的 所 有 后 项 聚集 在 一 起 ,结果 保存 到 wordl. txt 中 。 
代码 如 下 : 


#!1/usr/bin/python3 


上 = open('./result. txt', 'r',encoding= 'UTF — 8') 
content = f.readlines() 

f.close() 

f1 = open("word1. txt", 'w',encoding = 'UTF— 8') 
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fl1.write(" 前 项 -> 后 项 \n") 


keyDicts = {} 
num = 0 
while num < len(content) : 
tem = content[num]. split(' 
try: 
key = keyDicts[tem[1]] 
keyDicts[tem[1]] = key + [tem[0]] 
except: 
keyDicts[tem[1]] = [tem[0]] 
num += 1 


keys = keyDicts.keys() 
for key in keys: 


fl.write(str(key) + ”一 > "+ str(keyDicts[key]) + "\n") 


fl.close() 





re 可 民间 [Er | ss 6 




















58.005 








图 7.28 菜品 关联 挖掘 结果 


处 理 的 部 分 结果 如 图 7. 29 所 示 。“-> "左边 是 前 项 ,后 边 是 后 项 集合 。 后 项 集合 中 每 一 
项 为 一 个 后 项 ,包括 了 后 项 的 名 称 和 置信 和 度 。 商 家 可 以 根据 这 个 整理 后 的 数据 ,直接 在 用 户 
选择 某 一 个 菜品 的 时 候 ,出 现 所 有 与 之 相关 的 其 他 菜品 。 

网 站 上 提供 的 可 供用 户 填写 的 “喜欢 的 菜 ” 这 个 模块 能 够 为 菜品 的 推荐 提供 一 些 数据 ， 
此 外 ,还 可 以 从 用 户 正面 评论 中 获取 关于 用 户 喜 欢 的 菜 的 数据 。 对 评论 数据 做 一 些 处 理 ,分 
析 的 菜品 包括 一 些 受 欢迎 程度 较 高 的 菜品 。 
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图 7.29 后 项 聚集 数据 


all_food = [' 虾 滑 ， ' 一 根 面 ', ' 滑 牛肉 ' 海 底 捞 牛肉 ', ' 鸭 肠 ', ' 嫩 牛肉 ', ' 毛 肚 ', ' 柠 榜 水 '， 

' 捉 面 ', ' 海 底 捞 算 片 ', ' 鱼 片 ', ' 午 餐 肉 ', ' 豆 花 ', ' 豆 浆 ', ' 鸭 血 ', ' 牛 肉 丸 ', ' 捞 面 ', ' 猪 脑 '， 

' 猪 蹄 ', ' 番 茄 锅 底 ', ' 羊 肉 丸 ', ' 鲜 虾 滑 ', ' 肥 牛 ',' 金 针 菇 ', ' 小 料 ', ' 鱼 豆腐 ', ' 豆 皮 '， 

' 简 阳 鱼 ',' 黄 喉 ', ' 肥 肠 ',' 手 切 羊肉 ', ' 竹 苏 ', ' 海 底 捞 小 料 ', ' 冻 豆腐 ', ' 鸭 舌 ，' 墨 鱼 滑 … 

' 苞 豆 尖 ', ' 免 费 水 果 ', ' 千 层 肚 ', "小吃 ',' 锡 嘎 锅 ', ' 牛 蛙 ', ' 蓄 子 秆 '] 

所 使 用 的 评论 为 抓 取 到 的 全 部 评论 。 首 先 从 这 些 评论 中 为 每 个 菜品 找到 有 关 的 评论 。 
判断 评论 是 否 符合 标准 的 规则 为 : 如 果 某 条 评论 中 提 到 了 某 种 菜品 , 则 将 该 条 评论 视 为 菜 
品 的 相关 评论 ,添加 到 菜品 的 评论 列表 中 ,之 后 再 写 和 人 文件。 具体 代码 如 下 : 

for x in range(1, len(all_food) +1): 

comment = codecs. open( ' 数 据 /comments. txt', 'r', 'utf -8') 
filee = open(" 菜 品 /"+all_food[x-1]+".txt", 'w') 
while 1: 
line = comment. readline() 
if not line: 
break 
if line. find(all food[x-1])!=-1: 
filee. write(line) 

然后 将 得 到 的 各 自 菜品 对 应 的 评论 分 别 存 储 在 一 个 txt 文件 中 ,利用 结巴 分 词 对 得 到 
的 评论 做 分 词 处 理 。 结 巴 分 词 是 一 个 Python 中 文 分 词组 件 ,支持 3 种 分 词 模式 : 精确 模 
式 , 试 图 将 句子 最 精确 地 切 开 ,适合 文本 分 析 ; 全 模式 ,把 句子 中 所 有 的 可 以 成 词 的 词语 都 
扫描 出 来 ,速度 非常 快 ,但 是 不 能 解决 歧义 ; 搜索 引擎 模式 ,在 精确 模式 的 基础 上 ,对 长 词 再 
次 切 分 ,提高 召回 率 , 适 用 于 搜索 引擎 分 词 。 同 时 还 支持 自 定义 词 库 。 使 用 结巴 分 词 需 要 先 
安装 对 应 的 库 , 安 装 指令 为 pip install jieba 或 pip3 install jieba, 代 码 对 于 Python2/3 是 兼 
容 的 。 之 后 利用 其 中 的 分 词 的 方法 做 分 词 以 及 词 频 统计 ,并 且 存 储 到 菜品 各 自 对 应 的 文件 
中 。 具 体 代 码 如 下 (jiebaD. py): 


import jieba 
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def fenci(filename) : 
f = open(" 菜 品 /" + filename, 'r+') 
file list = f.read() 
f.close() 


seg_list = jieba.cut(file list,cut all= True) 


tf={} 
for seg in seg list : 
#print seg 
seg = ''.join(seg. split()) 
if (seg != ''and seg != "\n" and seg != "\n\n"): 
if seg in tf : 
tf[seg] += 1 
else : 
tf[seg] = 1 


f = open(" 菜 品 处 理 /result_" + filename, "w+ ") 
for item in tf: 

#Pprint item 

f.write(item+" "+str(tf[item]) +"\n") 
f.close() 


if name ==' main ': 
all_food =[' 虾 滑 ', 一 根 面 ', ' 滑 牛肉 ', ' 海 底 捞 牛 肉 ', ' 鸭 肠 ', ' 嫩 牛肉 ',' 毛 肚 ', "柠檬 水 '， 
'" 挤 面 , ' 海 底 捞 笋 片 ', ' 鱼 片 ', ' 午 餐 肉 ', ' 豆 花 ', ' 豆 浆 ', ' 鸭 血 ', ' 牛 肉 丸 ', ' 捞 面 ', ' 猪 脑 '， 
' 猪 蹄 ',' 番 茄 锅 底 ', ' 羊 肉 丸 ', ' 鲜 虾 滑 ', ' 肥 和 牛 ',' 金 针 菇 ', ' 小 料 ', ' 鱼 豆腐 ',' 豆 皮 '， 
' 简 阳 鱼 ', ' 黄 喉 ', ' 肥 肠 ',' 手 切 羊肉 ', ' 竹 苏 ', ' 海 底 捞 小 料 ', ' 冻 豆腐 ',' 芍 舌 ',' 墨 鱼 滑 '， 
' 驳 豆 尖 ', ' 免 费 水 果 ', ' 千 层 肚 ', ' 小 吃 ',' 狗 着 锅 ', ' 牛 蛙 ', ' 蓄 子 秆 '] 
for x in range(1, len(all food) +1): 
jieba.add word(all food[x—1]) 
for x in range(1,len(all food) +1): 
fenci(all food[x—1]+".txt") 


jieba. cut 方法 为 分 词 的 方法 ,此 处 选择 的 是 全 模式 ,jieba. add_word 方法 为 自 定义 词 库 
向 词典 中 添加 词 条 的 方法 ,这 里 把 菜品 的 词汇 一 一 添 入 ,此 外 还 可 以 统计 各 词汇 所 占 的 权 
重 , 代 码 如 下 (jiebaE. py)。 其 中 ,jieba. analyse. extract_tags() 方 法 提取 出 比重 在 前 50 的 词 
汇 , 并 且 输 出 对 应 的 占 比 情况 到 各 个 菜品 的 对 应 文件 。 


import jieba 
import jieba. analyse 
def fenci(filename) : 
f = open(" 菜 品 /" + filename, 'rb') 
file list = f.read() 
f.close() 
seg_list = jieba.analyse.extract tags(file list,topK = 50,withWeight = True) 
f = open(" 菜 品 + /result_" + filename,"w") 
for seg in seg list: 
#print item 
f. write(str(seg[0]) +" "+ str(seg[1]) +"\n") 
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f.close() 
if name ==' main ': 
all_food =[' 虾 滑 ', 一 根 面 ', ' 滑 牛肉 ', ' 海 底 捞 牛 肉 ', ' 鸭 肠 ', ' 嫩 牛肉 ', ' 毛 肚 ', ' 柠 榜 水 '， 
' 挤 面 ', ' 海 底 捞 笋 片 ' 鱼 片 ', ' 午 餐 肉 ', ' 豆 花 ', ' 豆 浆 ', ' 鸭 血 ', ' 牛 肉 丸 ', ' 捞 面 ', ' 猪 脑 '， 
' 猪 蹄 ',' 番 茄 锅 底 ', ' 羊 肉 丸 ', ' 鲜 虾 滑 ', ' 肥 牛 ',' 金 针 菇 ', ' 小 料 ', ' 鱼 豆腐 ', ' 豆 皮 '， 
' 简 阳 鱼 ', ' 黄 喉 ', ' 肥 肠 ', ' 手 切 羊肉 ', ' 竹 苏 ', "海底 捞 小 料 ', ' 冻 豆腐 ',' 鸭 舌 ', ' 墨 鱼 滑 … 
' 怠 豆 尖 ', ' 免 费 水 果 ', ' 千 层 肚 ', ' 小 吃 ',' 锡 嘎 锅 ', ' 牛 蛙 ', ' 蓄 子 秆 '] 
for x in range(1, len(all food) +1): 
jieba.add word(all food[x—1]) 
for x in range(1, len(all food) +1): 
fenci(all food[x—1]+".txt") 


通过 词 频 统 计 以 及 词汇 、 词 频 占 比 分 析 之 前 根据 喜欢 的 菜 所 得 到 的 菜品 关联 情况 ,在 点 
了 海底 捞 牛 肉 的 情况 下 , 滑 牛肉 出 现 11 次 , 占 比 为 24. 5%, 位 列 第 一 位 , 虾 滑 出 现 7 次 , 占 
比 为 1. 56% ,位 列 第 三 位 ; 在 点 了 滑 牛 肉 的 情况 下 ,海底 捞 牛 肉 出 现 11 次 , 占 比 为 2%, 位 
列 第 十 位 , 虾 滑 出 现 66 次 , 占 比 为 12.2% ,位 列 第 一 位 , 鸭 血 出 现 33 次 , 占 比 为 6% ,位 列 第 
二 位 ,柠檬 水 出 现 22 次 , 占 比 为 4% ,位 列 第 四 位 ; 在 点 了 虾 滑 的 情况 下 , 滑 牛 肉 出 现 66 次 ， 
占 比 为 5% ,位 列 第 一 位 (上 述 所 述 位 列 第 几 位 为 词 频 占 比 在 所 有 菜品 词 频 占 比 中 的 排名 ， 
之 所 以 菜品 词 频 占 比 不 高 ,是 因为 有 海底 捞 , 好 吃 ,不 错 等 与 菜品 无 关 词 汇 占 比较 高 )。 

通过 上 述 统计 可 以 发 现 , 通 过 “喜欢 的 菜 ” 以 及 评论 做 出 的 菜品 关联 大 致 是 吻合 的 ,所 以 


实现 一 个 推荐 算法 ,可 以 根据 顾客 输入 的 菜品 推荐 1 一 3 个 菜品 。 首 先 在 命令 行 输 入 : 
python recommend. py, 回 车 后 程序 运行 .该 推荐 程序 的 具体 操作 流程 如 “Demo 程序 ”, 如 
图 7.30 所 示 。 





图 7.30 ”Demo 程序 


具体 代码 实现 (recommend. py) 如 下 : 


import sys 
import traceback 
all_food=[' 虾 滑 ', ' 一 根 面 ', ' 滑 牛肉 ', ' 海 底 捞 牛肉 …" 鸭 肠 ' 嫩 牛肉 ', ' 毛 肚 ',' 柠 榜 水 '， 
'" 挤 面 ， ' 海 底 捞 算 片 ', ' 鱼 片 ', ' 午 餐 肉 ', ' 豆 花 ', ' 豆 浆 ', ' 鸭 血 ', ' 牛 肉 丸 ', ' 捞 面 ', ' 猪 脑 '， 
' 猪 蹄 ',' 番 茄 锅 底 ', ' 羊 肉 丸 ', ' 鲜 虾 滑 ', ' 肥 和 牛 ',' 金 针 菇 ', ' 小 料 ', ' 鱼 豆腐 ',' 豆 皮 '， 
' 简 阳 鱼 ', ' 黄 喉 ', ' 肥 肠 ', ' 手 切 羊肉 ', ' 竹 苏 ', ' 海 底 捞 小 料 ', ' 冻 豆腐 ',' 蝎 舌 ',' 墨 鱼 滑 '， 
' 怠 豆 尖 ', ' 免 费 水 果 ', ' 千 层 肚 ', ' 小 吃 ', ' 狗 央 锅 ', ' 牛 蛙 ', ' 蓄 子 秆 '] 
food_name = input(" 请 输入 菜品 名 称 :") 
filename = "result "+ food name+".txt" 
counts = input(" 输 入 推荐 菜品 数 (1 一 3 个 ,默认 为 1) :") 
count = 1 
try: 
count = int(counts) 
except: 
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print(" 输 入 错误 ") 
traceback. print_exc() 
sys. exit() 
count = count+1 
temp = count 
try: 
f = open(" 菜 品 + /" + filename, 'r') 
while 1: 
line = f.readline() 
if not line: 
break 
for x in range(1, len(all food) +1): 
证 line. find(all_food[x—1])!=—1: 
count = count—1 
if temp!= count + 1: 
print(" 推 荐 菜品 " + all_food[x-1]+ "\n") 
break 
if count == 0: 
break 
except: 
print(" 没 有 相关 菜品 推荐 ") 
traceback. print_exc() 


其 中 的 菜品 和 文件 夹 下 存储 的 菜品 是 有 关 分 词 后 词汇 、 词 频 占 比 的 文件 ,作为 推荐 程序 
的 数据 支持 。 

除了 菜品 ,口味 ,还 有 很 多 其 他 的 影响 因素 影响 着 店铺 的 生意 情况 ,为 了 能 够 进一步 分 
析 , 充 分 利用 评论 中 的 文本 内 容 , 分 析 评 分 与 评论 之 间 存 在 的 关联 ,根据 评论 中 的 内 容 做 出 
更 好 的 营销 建议 。 


7.5 用 户 评论 与 评分 的 关联 分 析 


开源 的 分 词 库 “ 结 巴 分 词 ”(https://github. com/fxsjy/jieba) ,对 评论 内 容 comments. 
txt( 预 处 理 后 得 到 的 文件 ) 进行 关键 词 提取 。 进 行 关键 词 提取 用 到 了 基于 TF-IDF 算法 的 
关键 词 抽取 ,TF-IDF 算法 可 以 评估 某 个 字 词 对 于 一 个 文件 集 或 一 个 语料库 中 的 其 中 一 份 
文件 的 重要 程度 。 算 法 函数 为 jieba. analyse. extract_tags(sentence,topK 一 20, withWeight 一 
False,allowPOS 一 ())。 函 数 的 接口 参数 中 ,topK 为 返回 几 个 TF/IDF 权重 最 大 的 关键 词 ， 
设置 为 1000; withWeight 为 是 否 一 并 返回 关键 词 权 重 值 ,这 里 设置 为 True。allowPOS 仅 
包括 指定 词性 的 词 ,这 里 设置 为 ('n', t's', 下 ,'vV', "a', 中 ', 'z','m','q', 'x')。 这 里 过 滤 掉 了 
介词 .连词 .助词 . 叹 词 代词 副词 .语气 词 .前 后 级 与 标点 符号 ,保留 了 名 词 ,形容词 等 11 种 
词性 。 

大 致 浏览 本 店 评论 后 ,结合 上 文 的 高 推荐 菜品 名 ,添加 一 部 分 自 定义 语料库 ,如 “ 挤 面 ” 
“一 根 面 "这样 的 食材 ,“ 棋 牌 ”游乐 场 " 这 样 的 设施 。 最 终 具体 的 代码 如 下 ,结果 保存 到 


commentsWord. txt 中 。 


# encoding= utf 一 8 





import jieba 
import jieba.analyse 
customizedWords = [' 海 底 捞 ', ' 滑 牛肉 ', ' 海 底 捞 牛肉 ', ' 一 根 面 ', ' 鸭 血 ', ' 柠 榜 水 ', ' 捉 面 '， 


for 


' 海 底 捞 算 片 ', ' 午 餐 肉 ', ' 豆 花 ', ' 鸭 肠 ' ' 支 付 宝 ",' 微 信 ',' 牡 丹 园 '， 
' 地 铁 站 ', "停车 位 ' 辣 锅 ', ' 鲍 着 锅 ', ' 儿 童 ', ' 面 筋 ', ' 会 员 ', ' 免 费 '， 
"番茄 锅 变脸，' 外 送 … "小吃 ',' 虾 滑 ',' 嫩 牛肉 ', ' 毛 肚 ', ' 鱼 片 ', ' 竹 苏 '， 
' 猪 脑 ', ' 捞 面 ', ' 香 藻 酥 ', ' 手 切 羊肉 ', ' 简 阳 鱼 ', ' 小 料 ', ' 黄 辣 丁 ', ' 油 豆 皮 '， 
' 宽 粉 ', ' 鱼 豆腐 ', ' 美 甲 ', ' 做 指甲 , ' 免 费 水 果 ', ' 排 号 ', ' 棋 牌 ', ' 表 演 '， 
' 锅 底 … ' 半 份 ', "毛巾 ', ' 哈 密 瓜 ', ' 豆 浆 ', 'ipad', ' 零 食 ', ' 游 乐 场 ', 果盘 '， 
"车 位 ' 停 车 '] 

word in customizedWords: 

jieba. add_word(word) 


with open( "comments. txt", 'rb') as wf, open( "comemntsWord. txt", 'w') as wf2: 


~ 
Leh 
星 





分 组 。 


这 里 首先 尝试 用 知识 图 谱 的 方式 实现 词语 的 自动 分 


提取 后 的 结果 如 图 7. 31 所 示 , 每 一 行为 关键 词 及 其 


由 于 这 样 出 现 的 结果 ,部 分 词语 如 “不 错 ”“ 好 吃 ”“ 味 
道 ”" 等 ,在 实际 分 析 的 时 候 由 于 谓语 或 其 他 成 分 的 缺失 没有 
实用 价值 ,所 以 须 手动 将 这 部 分 词语 删除 ,大 致 删除 部 分 词 
语 后 保留 了 600 个 关键 词 。 同 时 需要 对 提取 的 关键 词 进 行 


content = wf.read() 

words = jieba.analyse.extract tags(content, topK = 1000, withWeight = True,allowPOS = ( 
a 

for word in words: 
wf2. write(str(word[0]) + "" + str(word[1]) + "\n") 





图 7.31 提取 后 的 结果 


组 目前 可 用 的 中 文 知 识 图 谱 有 DBpedia、 BabelNet、 


Concept 


Net\ 楚 辞 .OpenKG. CN 和 CN-DBpedia 等 几 种 。 这 里 涉及 大 量 火 锅 食 材 名 ,以 很 


常见 的 食材 名 * 捉 面 “* 虾 滑 " 和 常用 服务 名 “外 卖 “ 半 份 " 作 为 测试 词汇 ,在 上 述 几 个 知识 图 


谱 工 具 


ph 进 行 测试 ,发 现 大 部 分 工具 的 语料库 都 不 能 提取 到 分 类 名 。 最 后 选择 了 工具 CN- 


DBpedia(http://kw. fudan. edu. cn/cndbpedia/intro/) ,该 工具 支持 RESTful 式 的 API 调 
用 。 使 用 该 工具 对 前 文 提取 的 关键 词 进行 分 类 。Python 实现 的 代码 如 下 。 





#1!1/usr/bin/python3 
import urllib 


from urllib. request import urlopen 


import json 


f = 


open( '. /comemntsWord. txt', 'r', encoding = 'UTF — 8') 


content = f.readlines() 
f.close() 
fl1 = open("class. txt", 'w',encoding = 'UTF— 8') 


for 


i in range(len(content) ) : 
tem = content[i].split('') 
data = tem[0] 
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url_values = urllib. parse.urlencode({ 'entity': data}) 
url = "http://knowledgeworks. cn:20313/cndbpedia/api/entityAVP?" 
full url = url + url values 


reData = urlopen(full url). read() 
reData = reData. decode( 'UTF — 8') 
reData = json. loads(reData)['av pair'] 


try: 
for k in range(len(reData)): 
证 reData[k][0] == ' 分 类 ': 
fl.write(data + ''+ reData[k][1] + '\n') 
except: 
pass 
最 终 提取 的 部 分 结果 如 图 7. 32 所 示 。 
知识 图 谱 提 取 的 结果 具有 一 定 的 参考 价值 ,但 是 限于 
当前 中 文 语料库 和 语义 网 的 不 完整 ,很 多 分 类 并 不 能 自动 
提取 出 来 。 并 且 由 于 在 分 析 一 些 词 语 的 时 候 带 有 了 主观 意 
识 , 所 以 该 部 分 的 词语 也 不 能 正确 提取 ,例如 ,“ 游 乐 区 ”和 
“婴儿 车 ?在 这 里 的 分 类 是 “儿童 ”就 完全 不 同 于 语义 网 中 
任何 三 元 组 的 定义 ,所 以 知识 图 谱 也 不 能 提取 出 来 。 结 合 
class. txt 中 的 知识 图 谱 提取 结果 ,最 后 划分 了 29 个 有 分 析 
价值 的 组 。 其 中 包括 了 火锅 底 料 食材, 小吃 等 食物 类 型 ; 
排队 、 服 务 等 基础 设施 相关 类 ; 额外 表演 、 外 卖 等 附加 服务 
类 ; 以 及 顾客 的 类 型 。 该 分 类 记录 在 classification. txt 中 。 


























知识 图 谱 分 类 结果 见 表 7. 1 。 图 7.32 最 终 提取 的 部 分 结果 
表 7.1 知识 图 谱 分 类 结果 
分 组 详细 分 组 详细 内 容 
底 料 油 锅 、 辣 椒 、 辣 味 、 辣 汤 、 宫 格 、 麻 辣 锅 、 清 汤 汤锅、 麻辣 、. 牛 油 、 微 辣 、 锅 底 、 辣 
料 类 锅 、 番 茄 锅 , 铬 着 锅 、 底 料 
配料 配料 香油、 红 油 .调料 , 桨 料 ,小 料 \ 麻 六 芝麻 、 慈 花 、 香 菜 、 香 草 、 清 水 ,芝麻 济 
面食 面食 挤 面 一 根 面 ,拉面 .面条 ,长寿 面 , 捞 面 杂 面 
牛肉 类 | 滑 牛 肉牛 滑 , 肥 牛牛 肉 , 嫩 牛 肉 ,海底 捞 牛 肉 
羊肉 类 ”| 羊肉 、 手 切 羊肉 、 状 羊 .羊肉 、 羊 排 
蔓 菜 其 他 肉 类 鹅 肠 、 鸡 蛋 姜 、 滑 类 、 牛 蛙 、 肥 肠 、 猪 蹄 、 鸭 舌 、 脑 花 、 黄 喉 、 猪 脑 .午餐 肉 、 肉 质 肉 


类 、 测 肉 、 肉 品 ,丸子 鸡蛋 、 毛 肚 、 鸭 肠 





河鲜 与 海鲜 | 虾 丸 \、 虾 滑 、 虾 片 鱼 片 . 沙 丁 鱼 、 墨 鱼 、 鱼 滑 、 泥 鳅 





豆 制 品 油 豆 皮 、 敬 粉 、 豆 腐 、 豆 花 、 豆 浆 、 鱼 豆腐 . 皮 盘 、 冻 豆腐 、 豆 皮 





素菜 菌 类 菌 类 香菇、 腐竹 ,蘑菇 、 菌 菇 香菇、 金针 菇 





笋 类 竹笋 、 笋 片 青 笋 海底 捞 笋 片 、 敌 











其 他 素菜 | 粉丝 \ 苘 贰 、 宽 粉 .山药 红薯 、 藉 片 . 豆 苗 、 葛 卜 、 蔬 菜 、 鸭 血 、 番 茄 . 青 菜 







































































续 表 
分 组 详细 分 组 详细 内 容 
饮料 柠檬 水 、 豆 浆 、 饮 料 \、 凉 茶 
小 吃 类 水 果 果盘 、 免 费 水 果 、 柚 子 
小 吃 点 心 ` 油 条、 泡菜 ,蛋糕 凉菜、. 榜 码 、 小 菜 
零食 冰棍 ,花生 小 食 、 爆 米花 ,烧饼 \、 零 食 
朋友 育 餐 | 朋友 \ 学 校 、 室 友 \ 学 生 、 下 班 \ 同 事 、 同 学 聚会 .同学 
生日 过 生日 ,生日 
出 行 目的 情侣 男 朋 友 、 女 朋友 
家 庭 聚 餐 | 一 家 人 、 全 家 、 家 庭 聚会 .孕妇 .老人 \ 家 人 
儿童 游乐 区 、 婴 儿 床 , 儿 童 、 小 孩子 小 朋友 、 小 孩 , 玩 具 \ 儿 童 乐园 .游戏 .娃娃 
排队 排队 等 位 ,拥挤 、 订 位 \ 排 位 、 排 队 、 排 号 、 排 到 、 排 长 队 、 等 待 ,等 待 时 间 \ 等 候 、 高 峰 期 
服务 服务 员 、 工 作 人 员 、 服 务 态度 、 服 务 到 位 、 服 务 生 、 服 务 质 量 、 男 服务 员 、 服 务 水 
服务 类 平 , 优 质 服 务 、 服 务 员 
半 份 半 份 
回头 客 “| 下 次 .下 回 、 多 次 ,两 次 ,第 二 次 ,次 次 ,再 来 
额外 表演 或 | 现场 表演 ,棋牌 , 纸 鹤 、 麻 将 、 跳 舞 、 象 棋 、 下 棋 、 表 演 、 跳 棋 、 做 指甲 .充电 、 擦 鞋 、 
服务 贴膜 ,指甲 头 强手 机 套 , 打 印 
夜晚 营业 | 晚上 ,半夜 ,夜里 ,夜宵 
横 夫 要 和 停车 停车 、 停 车位、 停车 场 ,车 位 
外 卖 外 卖 、 外 送 
团购 团购 


下 面 将 该 分 类 结果 写 回 Excel。 代 码 实现 中 , 读 取 上 面 得 到 的 classification. txt, 然 后 将 
每 一 个 关键 词 写 到 新 的 表格 文件 的 第 一 行 ,同时 需要 新 建 一 个 字典 存储 关键 词 及 其 下 的 详 
细 内 容 。 接 着 读 取 之 前 抓 取 的 评论 ,对 每 一 个 关键 词 看 顾客 的 评论 中 是 否 有 该 词 下 属 的 详 
细 词 汇 。 这 里 用 到 ”* 结 巴 分 词 ” 的 分 词 功能 .函数 是 jieba. lcut。 若 找到 了 一 个 详细 词汇 , 则 
将 对 应 的 单元 格 设 为 1, 反之 设 为 0。 这 里 针对 “结巴 分 词 " 的 词 库 缺 失 , 添 加 了 部 分 词语 。 
具体 代码 如 下 。 


#1!1/usr/bin/python3 


import xlwt 


import xlrd 
import jieba 


# 要 输出 的 表格 
workbook = xlwt.Workbook() 
Sheet1 = workbook.add sheet('sheetl1',cell overwrite ok = True) 


# 读 取 提 取 后 的 关键 词 

上 = open('./classification. txt', 'r',encoding = 'UTF — 8') 
content = f.readlines() 

f.close() 


# 添加 第 一 行 的 关键 词 名 称 


num = 0 
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keyWordTup = () # 所 有 的 关键 词 


writeNum = 0 
groupsDict = 
while num < len(content) : 
tem = content[num].find('') 
keyWord = content[num][0:tem] 
Sheet1. write( 0, writeNum, keyWord) 
keyWordTup += (keyWord,) 
temTup = () 
groupContent = content[num]. split('') 
for i in range(1, len(groupContent) — 1): 
temTup += (groupContent[i],) 
groupsDict[keyWord] = temTup 
writeNum += 1 
num += 1 
# 读 取 抓 取 的 数据 
workbook1l = xlrd. open_workbook('. /评论 与 评分 . xlsx') 
worksheets = workbookl. sheet names() 
worksheetl = workbook1. sheet_ by name(u'othercommit') 
customizedWords = [' 海 底 捞 ', ' 滑 牛肉 ', ' 海 底 捞 牛肉 ', 一 根 面 ', ' 鸭 血 ', ' 柠 榜 水 ', ' 捉 面 '， 
"海底 捞 笋 片 …' 午 餐 肉 … ' 豆 花 ',' 鸭 肠 ',' 支 付 宝 ',' 微 信 ',' 牡 丹 园 '， 
' 地 铁 站 ', "停车 位 ' 辣 锅 ', ' 狗 瘦 锅 ', ' 儿 童 ', ' 面 筋 ', ' 会 员 ', ' 免 费 '， 
"番茄 锅 … ' 变 脸 ',' 外 送 ', "小吃 ',' 虾 滑 ',' 娣 牛肉 ',' 毛 肚 ', ' 鱼 片 ', ' 竹 苏 '， 
' 猪 脑 ', ' 捞 面 ', ' 香 燕 酥 ', ' 手 切 羊肉 ', ' 简 阳 鱼 ', "小 料 ', ' 黄 辣 丁 ', ' 油 豆 皮 '， 
' 宽 粉 ', ' 鱼 豆腐 , ' 美 甲 ',' 做 指甲 ', "免费 水 果 ', ' 排 号 ', ' 棋 牌 ',' 表 演 '， 
' 锅 底 ', ' 半 份 … "毛巾 ', ' 哈 密 瓜 ',' 豆 浆 ', 'ipad', ' 零 食 ', ' 游 乐 场 ', 果盘 '， 
' 车 位 ',' 停 车 ', ' 游 乐 区 ', "婴儿 床 ', ' 儿 童 乐园 ', "外 卖 ',' 外 送 ', ' 团 购 ', ' 下 棋 '， 
' 贴 膜 ', ' 擦 鞋 ', ' 头 强 ',' 凉 茶 ', 果盘 ', ' 粕 码 '] 
for word in customizedWords: 
jieba.add_word(word) 
num rows = worksheetl.nrows 


for curr_row in range(num_rows) : # 对 抓 取 数据 进行 遍历 
keyWordFlag = 0 
while keyWordFlag < len(keyWordTup) : # 对 关键 词 进行 遍历 
keyWord = keyWordTup[keyWordFlag] 
cell = worksheetl.cell value(curr_row,4) # 取 评 论 


cell list = jieba.lcut( 
str(cell). lstrip().rstrip(),cut all=True)  # 分 词 


find = 0 
for oneWord in groupsDict[keyWord] : # 找 关 键 词 
try: 
cell list. index(oneWord) 
find = 1 
break 
except: 
pass 
if find == 
Sheet1. write(curr_row + 1,keyWordFlag,1) 
else: 


Sheet1. write(curr_row + 1,keyWordFlag,0) 
keyWordFlag += 1 


Workbook. save( 'commentsWord. xls') 


将 最 初 抓 取 的 数据 中 与 评分 相关 的 4 列 加 入 到 代码 生成 的 表格 中 ,同样 可 以 用 Python 


实现 ,这 里 直接 将 之 前 的 数据 复制 过 来 。comments Word. xls 如 图 7. 33 所 示 。 
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im-star40 
im-star50 


ESTIE 把 
口味 评分 服务 评分 环境 评分 许 料 配料 


口味 4( 非 常服 务 4( 非 常 环境 4( 非 党 


味 4( 非 党 服务 4( 非 常 环 境 3( 得 好 


图 7. 33 comments Word. xls 
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[ER 
其 它 肉 类 河鲜 与 海峡 “ 豆 制 品 


=oococccccccc=cc==oco 


=ccccc=-=-c=-c=-=-=-c=-c==-c=co 


将 该 表格 导入 SPSS Modeler 18.0, 单 击 “ 插 入 ”一 “ 源 ” 一 Excel, 选 择 文件 类 型 和 导入 文 
件 。 接 着 对 评分 的 3 个 字段 进行 数值 化 处 理 。 在 之 前 的 “ 源 ” 节 点 后 单 击 “ 插 入 ”一 “字段 选 


项 ”, 选 择 “ 导 


» 
中， 


价 均 分 )”, 单 击 “ 确 定 " 按 钮 ,如 图 7. 34 所 示 。 





| @ ps 
(EI 
导 为 : 公式 





此 这 段 : 


模式 : 


图 单个 口 多 个 








评价 均 分 -数值 











1 suw 回国 
sh 


公式 : 











|substring_between (9,9, 评 价 均 分 ) 











图 7.34 数值 化 “评价 均 分 ” 





将 导出 字段 设置 为 评价 均 分 _ 数 值 ”, 并 输入 公式 “substring_between(9,9, 评 
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继续 添加 3 个 导出 节点 ,分 别 对 “口味 评分 “服务 评分 "和 “环境 评分 ”做 数值 化 处 理 。 
在 3 个 节点 后 单 击 “ 插 入 ”一 “字段 选项 ”, 添 加 “过 滤器 ”", 将 前 4 个 字段 过 滤 掉 , 单 击 “ 确 定 ” 
按钮 ,如 图 7. 35 所 示 。 

















图 7.35 过 滤 数 值 化 前 的 数据 


可 单 击 “ 插 入 ”输出 ”, 添 加 “表格 ”节点 查看 导出 后 的 字段 。 

单 击 “ 插 入 ”一 “字段 选项 ”, 选 择 “ 类 型 "节点 。 将 除 评分 外 的 其 他 字段 的 测量 设 为 “ 标 
记 ”。 将 “评价 均 分 _ 数 值 ” 的 角色 设 为 “目标 ”, 将 “口味 评分 _ 数 值 ”“ 服 务 评分 _ 数 值 ? 和 “环境 
评分 _ 数值 "的 角色 设 为 “无 "。 其 他 保持 默认 值 , 单 击 “ 确 定 "按钮 ,如 图 7. 36 所 示 。 
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图 7.36 设置 “类 型 "节点 
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在 该 “类 型 "节点 后 , 单 击 “ 持 入 ”一 “ 建 模 ”>Apriori, 设 置 Apriori 节点 中 的 “最 低 条 件 
支持 度 ” 为 3. 0, 最 下 规则 置信 度 为 5.0, 其 他 保持 默认 值 , 单 击 “ 运 行 ”按钮 得 到 结果 模型 。 

这 里 ,第 一 次 生成 的 模型 中 很 大 比例 都 有 “服务 ”, 考虑 到 本 店 的 服务 一 直 是 核心 竞争 
力 , 为 了 更 多 地 突出 其 他 因素 ,在 “类 型 "节点 中 将 “服务 ”的 角色 设 为 “无 ”"。 重 新 运行 生成 
模型 。 

选择 按照 “置信 和 度 百分比 ”排序 ,得 到 的 结果 如 图 7. 37 所 示 。 可 以 对 结果 进行 下 列 分 
析 。 这 里 的 分 析 一 部 分 是 对 本 店 进一步 改进 的 建议 , 男 一 部 分 是 其 他 火锅 店 可 以 学 习 本 店 
的 内 容 。 
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图 7.37 评论 和 打分 关联 分 析 


(1) 顾客 在 提 到 有 额外 表演 或 服务 的 时 候 , 有 高 达 70% 的 顾客 给 出 了 5 分 好 评 。 其 他 
店 如 果 没 有 这 方面 的 表演 或 服务 ,可 以 考虑 增加 这 方面 的 内 容 ,增加 用 户 满意 度 。 

(2) 在 食材 方面 ,评论 涉及 面食 、 河 鲜 与 海鲜 、 牛 肉 类 的 , 均 有 超过 60% 的 顾客 给 予 了 好 
评 , 本 店 可 以 考虑 结合 上 文 做 的 菜品 推荐 和 这 里 的 高 分 评价 菜 ,一 起 做 菜品 的 营销 。 

(3) 同时 提 到 “其 他 素菜 > 和 * 底 料 ” 的 时 候 ,5 分 好 评 占 到 64. 9%。 本 店 可 以 将 “其 他 素 
菜 ? 分 类 的 素菜 与 * 底 料 一 起 组 合成 不 同 的 锅 底 供 顾客 选择 。 

(4) 有 高 于 8% 的 顾客 提 到 配料 ,其 中 高 于 60% 的 顾客 给 予 了 5 分 好 评 ,另外 约 有 32% 
的 顾客 给 予 了 4 分 好 评 ,4 分 与 5 分 评价 总 和 超过 90% 。 这 说 明 本 店 的 配料 也 有 独到 的 地 
方 , 其 他 火锅 店 可 以 尝试 学 习 改 进 自己 的 配料 。 

(5) 在 提 到 “饮料 ”的 评论 中 ,5 分 评价 达到 59% ,4 分 评论 达到 28%。 而 在 分 类 中 提 到 
的 饮料 主要 为 “柠檬 水 “豆浆 ”和 “凉茶 ”3 种 ,说 明 这 3 种 饮料 更 受 欢 迎 。 其 他 火锅 店 也 可 
以 考虑 增加 缺失 的 饮料 。 
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(6) 提 到 “ 半 份 "的 有 65% 的 顾客 给 予 了 好 评 , 这 也 是 本 店 的 特色 之 一 。 菜 品 允 许 点 半 
份 ,这 既 避 免 了 浪费 ,也 方便 顾客 点 不 同 的 菜 。 其 他 的 火锅 店 可 以 考虑 借鉴 这 个 销售 策略 。 

(7) 有 21% 的 顾客 提 到 “排队 ”, 但 其 中 62. 5% 的 顾客 仍然 选择 了 好 评 。 这 是 因为 本 店 
在 顾客 等 位 的 时 候 提 供 了 免费 的 零食 和 额外 的 服务 ,这 在 减少 顾客 流失 和 保证 客 源 上 有 很 
大 的 帮助 。 有 3. 488% 的 顾客 提 到 了 专 为 排队 提供 的 零食 ,他 们 中 也 有 超过 62% 的 顾客 给 
予 了 5 星 好 评 。 

(8) 有 7.888% 的 顾客 的 评论 中 提 到 “回头 客 " 相 关 的 内 容 。 这 说 明 本 店 在 口味 和 服务 
上 有 一 致 性 ,并 且 能 够 吸引 顾客 二 次 消费 。 

除 此 之 外 ,还 可 以 对 本 店 的 顾客 评论 做 情感 分 析 , 了 解 顾客 喜好 。 


7.6 顾客 情感 分 析 


为 了 对 用 户 做 出 情感 分 析 ,需要 获得 用 户 在 大 众 点 评 上 对 于 该 火锅 店 所 做 的 评论 的 内 
容 , 抓 取 评论 使 用 Python 脚本 。 

由 于 网 络 平台 中 “水 军 ” 以 及 恶意 评论 等 行为 的 存在 ,所 以 得 到 的 评论 内 容 有 可 能 是 不 
够 好 的 数据 ,所 以 接 下 来 需要 先 对 得 到 的 评论 内 容 进行 预 处 理 , 可 以 使 用 在 线 的 去 重工 具 去 
除 重复 内 容 , 链 接 为 http://quchuchongfu. renrensousuo. com。 

只 需要 将 要 去 重 的 文本 复制 到 文本 框 中 , 单 击 “ 去 重 ” 即 可 达到 去 重 效果 。 

要 进行 文本 的 中 文 分 词 处 理 , 这 里 用 一 个 Python 的 分 词 工具 一 一 结巴 分 词 , 只 需要 安 
装 jieba 包 ,就 可 以 在 Python 中 使 用 。 


import jieba 
import jieba. analyse 
import jieba. posseg as pseg 


之 后 ,对 评论 的 文本 内 容 进行 中 文 分 词 处 理 : 核心 代码 如 下 : 


with open( "comment. txt", 'rb') as wf, open("comemntsWord. txt", 'w') as wf2: 
content = wf.read() 
freq_word = {} 
freq_flag = {} 
contents = pseg.cut(content) 
for word, flag in contents: 
if(len(word)> 1): 
if(flag== 'c'or flag == 'cc'or flag == 'p'or flag == 't'or flag == 'r'or 
flag == 'd'): 
pass 
else: 
#print word, flag 
if word in freq_word: 
freq_word[word] +=1 
else: 
freq_word[word] =1 


#freq flag[word] = temp 





freq_word 1 = [] 

for word, freq in freq_word. items() : 
freq_word_1.append( (word, freq) ) 

freq_word 1. sort(key = lambda x: x[1],reverse = True) 


for word, freq in freq_word 1: 
if (freq> 10) : 
wsl.append( [word, freq]) 
wb. save(filename = dest filename) 
pseg. cut() 方 法 针对 文本 进行 分 词 ,其 中 word 和 flag 表示 
处 理 得 到 的 关键 词 和 该 关键 词 的 词性 ,由 于 处 理 得 到 的 关键 词 
中 ,介词 连词 .时 间 词 .代词 .副词 等 是 没有 意义 的 ,所 以 可 以 过 
滤 除 去 这 些 词 ,同时 计算 关键 词 在 该 评论 文本 中 的 出 现 频 率 。 
最 后 将 结果 (关键 词 和 该 关键 词 的 频率 ) 保 存 到 一 个 Excel 文 
件 中 。 
尽管 通过 过 滤 除 去 了 介词 连词、 时 间 词 ,代词 .副词 等 ,但 
仍然 有 一 些 词 是 没有 意义 的 ,这 时 可 以 手动 去 除 没 有 意义 的 词 。 
处 理 后 的 结果 如 图 7. 38 所 示 。 
根据 分 词 之 后 的 词 频 ,可 以 画 出 标签 云 ,如 图 7. 39 所 示 。 
从 标签 云图 可 以 看 出 顾客 的 关注 点 主要 在 于 “服务 “味道 ” 
“环境 "等 ,也 可 以 看 出 ,这 家 火锅 店 能 够 为 前 来 用 餐 的 顾客 提供 
“好 吃 ” 的 菜品 ,让 很 多 客户 觉得 “不 错 ”, 服 务 比 较 “ 热 情 ”"。 这 些 
优势 是 需要 继续 维持 的 方面 。 火 锅 店 也 可 以 针对 这 些 特色 做 广 
告 宣传 的 工作 。 但 是 ,从 标签 云图 同时 也 能 够 看 到 一 些 存 在 的 问 
题 ,例如 顾客 会 觉得 店 里 过 于 拥挤 ,需要 排队 。 火 锅 店 可 以 考虑 开 
设 分 店 将 消费 者 分 流 或 者 是 制订 避 开 高 峰 时 间 段 用 餐 的 优惠 政策 
(折扣 、 礼 品 馈赠 等 方式 ) ,这 是 火锅 店 可 以 做 出 改善 的 细节 。 
下 面 再 分 析 文 本 中 用 户 的 情感 。 这 里 用 一 个 Python 的 情 
感 分 析 包 SnowNLP 来 实现 , 它 会 分 析 每 条 评论 的 用 户 情感 ,并 
给 出 一 个 [0 一 1 之 间 的 数值 ,从 0 到 1 表示 了 消极 情绪 到 积极 


情绪 的 变化 过 程 。 越 靠近 1 说 明 积 极 情 绪 越 高 。 处 理 的 核心 代码 如 


from snownlp import SnowNLP 
import codecs 
fr = open( 'comment. txt', 'r',encoding = 'utf — 8') 
fw = open( 'motionl. txt', 'w',encoding = "utf — 8') 
while 1: 

line = fr.readline() 

if not line: 

break 
sl = SnowNLP(line) 
fw. write(str(s1. sentiments) +" "+1ine) 


服务 3895 
不 错 1711 
味道 1296 
好 吃 964 
喜欢 895 
服务 员 853 
环境 633 
排队 518 
菜品 436 
锅 底 360 
热情 321 
吃饭 250 
水 果 231 
免费 230 
服务 态度 229 
美甲 2271 
价格 215 
推荐 213 
大 家 207 
贴心 204 
没 的 说 191 
时 间 190 
没 得 说 189 


图 7.38 处 理 后 结果 





nT 下: 


sl. sentiments 得 到 该 条 评论 的 得 分 ,并 最 终 将 每 条 评论 的 得 分 与 该 评论 的 内 容 写 入 到 


motionl. txt 文件 中 ,如 图 7. 40 所 示 。 
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9.761632266522249 和 老师 在 一 起 吃 个 饭 ， 然 后 ， 服 务 好 像 变 莽 了 。 

9.9897590829289926 一 如 既往 地 好 ， 内 很 好 吃 ， 小 料 不 错 。 

0.5883256167466422 味道 很 好 ， 小 料 种 类 超级 多 ， 水 果 也 多 ， 两 人 388 不 到 

0.9821052018906514 服务 员 很 热情 ， 给 类 妍 婚 点 个 杜 ! 

9.9999997542655679 是 是 的 服务 生 小 哥 很 贴心 的 阻止 了 我 讶 目的 点 餐 行 为 ! 超 贴心 ! 还 会 再 去 

9.9998453563119994 昨天 晚上 朋友 过 生日 专门 定 个 六 人 的 房间 ， 何 娇 服务 员 服务 非常 樟 ， 下 回 还 会 来 ! 给 你 个 壮 先 筑 \ 
(sys)/1 

0.8473081734858704 大 学 七 年 来 这 里 数 不 清 多 少 次 ， 服 务 没 的 说 ， 味 道 也 好 ， 很 受 欢迎 。 

9.9999999253582337 来 了 很 多 次 海底 捞 , 服务 态度 非常 好 ,美丽 的 小 燕 服务 很 到 位 很 贴心 , 微笑 服务 , 真 的 很 棒 . 谢谢 燕子 的 服务 
一 要闻 李 的 阳 于 加 过 1 


图 7.40 评论 与 情感 得 分 


可 以 看 出 ,得 分 基本 反映 了 用 户 的 情感 ,是 比较 合理 的 。 

那么 ,根据 该 数值 ,就 可 以 得 到 用 户 的 情感 。 划 定 积极 情绪 .中 间 情 绪 以 及 消极 情绪 之 
间 的 范围 为 [0. 6 一 1] [0. 4 一 0.6]\`[0 一 0.4]。 然 后 计算 积极 情绪 ,中间 情绪 和 消极 情绪 的 
比例 。 核 心 代码 如 下 : 


while 1: 


line= f.readline() 
if not line: 

break 
t= line. split('') 
w= t[0] 


m=t[len(t)—1] 

if float(w)> 0.6: 
count good= count good+1 
q.write(m) 

elif float(w)> 0.4 and float(w) <= 0.6: 
count temp= count temp+1 
tc. write(m) 

else: 
p. write(m) 
count bad += 1 

count = count +1 

temp = line 


通过 执行 代码 ,得 到 各 种 情绪 占 比 。 
积极 情绪 .中间 情绪 、 消 极 情绪 的 比例 分 别 为 0.77、0.05、0. 17, 大 部 分 客户 对 该 店 是 比 
较 满意 的 。 态 度 处 于 中 间 水 平 的 客户 不 多 ,有 将 近 两 成 的 客户 对 该 店 不 满意 。 
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可 以 从 热 评 词 中 分 析 关 注 该 热 评 词 的 客户 对 该 店 的 态度 : 从 上 面 的 标签 云图 中 很 容易 
发 现 评论 的 热 评 词 ,如 “服务 “味道 “环境 ”等 ,可 以 从 这 些 热 评 词 入 手 ,看 客户 比较 关注 的 
地 方 , 该 店 做 得 怎么 样 。 从 最 热 的 词 “ 服 务 ”" 和 人手 ,计算 出 提 到 “服务 "这 一 热 评 词 的 所 有 评论 
有 多 少 ,然后 分 析 其 中 的 积极 情绪 、 中 间 情 绪 、 消 极 情 绪 分 别 占 多 少 比例 。 
for x in range(1, len(all food) +1): 
comment = codecs.open('goodCom].txt', 'r', 'utf — 8') 


comment_ temp = codecs.open('tempComl.txt', 'r', 'utf— 8') 
comment1 = codecs.open('badComl. txt', 'r', 'utf — 8') 


cou good = 0 
cou temp = 0 
cou bad = 0 
while 1: 


line = comment. readline() 
if not line: 
break 
if line.find(all food[x—1])!=-—1: 
cou good= cou good+1 
while 1: 
line = comment temp. readline() 
if not line: 
break 
if line. find(all food[x— 1])!=-1: 
cou temp= cou temp+1 
while 1: 
line = commentl. readline() 
if not line: 
break 
if line. find(all food[x—1])!=—1: 
cou bad= cou bad+1 
print str(cou good), str(cou_ temp), str(cou_bad) 
filee.write(all food[x—1]+""+str(cou good) +" "+str(cou temp) +" "+str(cou bad) +"\n") 


执行 之 后 ,就 得 到 相应 的 数据 ,如 图 7. 41 所 示 。 
为 了 对 比分 析 , 可 以 找 出 评论 中 不 包含 “服务 ”这 一 热 评 词 的 评论 ,分 析 其 各 种 情绪 所 占 
的 比例 ,结果 如 图 7.42 所 示 。 


县 务 
积极 情绪 : 9.7989613893376414 积极 情绪 : 6.7614512785072564 
中 间 情 绪 : 9. 94819661567868293 中 间 情绪 : 9. 97649967935245335 
消极 情绪 : 6. 15374259558427572 消极 情绪 : 9.22895805114029026 
总 评论 数 : 3714 总 评论 数 : 1447 
7.41 包含 “服务 ”一 词 情 绪 分 析 7.42 不 含 “服务 ”一 词 情绪 分 析 


对 比 图 7.41 和 图 7. 42 可 以 发 现 ,在 不 包含 “服务 ”的 评论 中 ,积极 情绪 降低 了 将 近 
10%% ,消极 情绪 和 中 间 情 绪 都 有 所 增加 ,这 说 明 * 服 务 " 这 一 因素 很 大 程度 上 决定 了 该 店 的 客 
户 情感 ,所 以 说 明 * 服 务 ? 是 影响 客户 情感 的 关键 因素 ,必须 引起 商家 的 重视 。 从 包含 服务” 
这 一 热 评 词 的 情绪 与 所 有 评论 的 情绪 的 对 比 中 可 以 看 出 ,包含 “服务 ”的 评论 中 ,积极 情绪 要 
比 总 体 的 情绪 稍 高 ,这 说 明 该 店 在 服务 方面 做 得 比较 好 ,有 一 定 的 竞争 力 。 所 以 ,商家 必须 
重视 “服务 "在 客户 情感 中 的 重要 作用 ,应 该 在 “服务 ”方面 继续 保持 优势 ,争取 服务 水 平 更 上 
一 层 楼 。 
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第 岛 兰 


商务 宾馆 竞争 分 析 


随 着 经 济 的 发 展 和 人 们 生活 水 平 的 提高 ,国内 经 济 型 酒店 发 展 迅速 , 近 几 年 有 大 量 的 经 
济 型 商务 酒店 建成 并 投入 使 用 ,竞争 异常 激烈 。 如 何 能 在 酒店 行业 的 红海 市 场 中 生存 和 发 
展 ,是 目前 酒店 的 经 营 者 一 直 在 思考 的 问题 。 

通过 对 点 评 网 站 中 的 酒店 评价 数据 进行 抓 取 ,获得 用 户 对 酒店 的 评分 和 评论 内 容 ,结合 
评论 人 、 评 价 数量 .评价 内 容 、 评 价 频次 及 评分 随时 间 变 化 的 走势 ,可 以 对 酒店 中 存在 的 主要 
问题 进行 分 析 , 并 对 用 户 复 购 率 进行 统计 ,结合 线性 回归 等 数据 分 析 算法 统计 分 析 得 到 酒店 
竞争 力 影响 因素 。 对 评价 内 容 进行 词 频 统 计 和 情感 分 析 ,综合 正面 .中 立 、 负 面 情感 对 酒店 
的 竞争 情况 进行 比较 ,最 终 得 出 酒店 的 竞争 过 程 中 存在 的 主要 问题 ,并 给 出 改进 建议 ,从 而 
提高 酒店 的 市 场 竞争 能 力 。 


8.1 目前 经 济 型 酒店 行业 竞争 态势 


2003 年 之 后 , 随 着 如 家 、7 天 、 汉 庭 等 本 土 经 济 型 酒店 品牌 的 创建 ,本 土 经 济 型 酒店 迅猛 
发 展 。 根 据 表 蝶 咨询 数据 统计 ,至 2015 年 1 月 1 日 ,本 土 经 济 型 酒店 的 门店 总 数 已 经 达到 
15 439 家 ,客房 数 共 1 525 471 间 ,品牌 数 共 514 个 。 根 据 2014 年 上 市 公司 财报 ,本 土 经 济 
型 酒店 品牌 按 市 场 占有 率 排名 ,前 10 名 依次 是 : 如 家 快捷 、7 天 酒店 、 汉 庭 酒店 、 锦 江 之 星 、 
格林 豪 泰 、 莫 泰 、 玖 玖 旅馆 、 尚 客 优 、 布 丁 酒店 \ 城 市 便捷 。 

经 济 型 酒店 因为 服务 .环境 等 标准 化 ,并 且 相 对 来 说 同一 品牌 的 质量 相对 稳定 ,最 重要 
的 是 具有 高 性 价 比 , 所 以 经 济 型 酒店 发 展 迅速 , 几 年 时 间 引 来 大 量 资本 投入 ,导致 经 济 型 酒 
店 进入 红海 时 代 , 同 质 化 竞争 严重 .利润 下 降 ,使 得 服务 水 平 降低 ,影响 用 户 体验 ,最 终 整 个 
行业 进入 低 赢 利水 平 阶段 。 
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开 一 家 经 济 型 酒店 的 成 本 并 不 高 ,进入 门槛 较 低 , 容 易 受 到 新 进入 者 的 威胁 ; 随 着 人 们 
生活 水 平 的 提高 ,人 们 对 星 级 酒店 消费 能 力 的 提升 ,对 经 济 型 酒店 产生 空间 挤 压 , 即 “白领 用 
户 ” 趋 于 选择 星 级 酒店 ,而 “蓝领 用 户 ” 对 价格 较 敏 感 ,对 偏 高 端的 经 济 型 酒店 具有 排斥 心态 ， 
更 愿 选 择 更 低 价 格 的 简陋 旅馆 。 由 于 客人 的 选择 范围 广 , 所 以 他 们 会 议价 ,压缩 酒店 的 利润 
空间 。 综 合 来 看 ,目前 酒店 行业 竞争 态势 还 处 于 低层 次 竞争 级 别 ,差异 化 不 明显 ,更 多 的 是 
进行 价格 竞争 ,要 想 在 众多 酒店 中 获得 更 大 的 优势 ,主要 还 需要 对 服务 进行 创新 ,通过 服务 
好 目标 客户 群 产生 良好 的 品牌 口碑 ,逐渐 在 竞争 中 胜出 。 

如 图 8.1 所 示 ,A 商务 宾馆 是 一 家 定位 为 较 高 性 价 比 的 经 济 型 商务 酒店 ,其 位 于 高 铁 站 
附近 ,直线 距离 高 铁 东 站 不 超过 500m。 酒 店 拥有 大 床 房 、 温 世家 庭 房 .舒适 三 人 间 、 舒 适 双 
床 房 、 舒 适 大 床 房 . 观 景 双 大 床 房 、 阳 光 双 床 房 .阳光 商务 大 床 房 等 房型 , 房 内 配 设 齐全 ,提供 
24 小 时 热 水 、 空 调 . 卫 浴 、 电 视 、 电 话 等 配套 设施 。 
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8.1 商务 宾馆 附近 餐饮 情况 展示 


服务 .位 置 .餐饮 .配套 等 是 酒店 的 重要 影响 因素 ,A 商务 宾馆 距离 火车 站 非常 近 , 直 线 
距离 只 有 0. 5km, 并 且 在 商务 宾馆 2km 内 有 两 个 商业 广场 .具有 和 较 高 的 客 源流 量 基础 ,这 是 
其 重要 的 竞争 优势 。 

虽然 A 商务 宾馆 占据 了 交通 枢纽 的 优势 ,但 其 面临 的 威胁 是 酒店 行业 进入 门槛 较 低 ， 
吸引 了 众多 的 行业 竞争 者 进入 ,在 酒店 附近 存在 数 十 家 同样 价位 的 商务 宾馆 ,由 于 差异 化 不 
明显 ,竞争 者 都 采用 针对 式 的 营销 策略 ,在 开发 新 客户 时 推出 层出不穷 的 优惠 方案 ,对 A 商 
务 宾馆 的 经 营 产 生 较 大 影响 。 另 外 ,虽然 交通 枢纽 处 的 餐饮 较 多 ,但 其 质量 和 价格 参差 不 
齐 , 对 A 宾馆 易 带 来 负面 评价 。 综 上 ,A 商务 宾馆 要 想 在 竞争 中 立 于 不 败 之 地 ,需要 具有 较 
强 的 竞争 能 力 和 客户 服务 能 力 。 

能 否 在 竞争 中 脱颖而出 取决 于 如 何 进 行 差异 化 经 营 ,如 何 增强 商务 宾馆 的 商业 竞争 力 ， 
为 了 实现 这 一 目标 ,通过 对 入 住 客人 的 评论 内 容 进行 不 同 维度 的 数据 挖掘 ,获取 A 商务 宾 
馆 竞争 现状 和 存在 的 主要 问题 ,并 为 其 提出 酒店 经 营 的 合理 化 建议 ,以 提高 其 市 场 竞争 
能 力 。 
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8.2 用 户 相 关 数 据 准 备 


为 了 分 析 A 商务 宾馆 目前 在 其 行业 内 的 竞争 情况 .客户 满意 情况 以 及 客户 反馈 的 主要 
问题 ,需要 获得 顾客 对 酒店 的 评论 内 容 和 评价 分 数 ,这 些 数据 可 以 通过 使 用 * 怜 虫 ” 软 件 或 编 
程 的 方式 从 酒店 预订 网 站 上 抓 取 。 不 仅 可 以 抓 取 A 商务 宾馆 的 客户 评论 数据 ,还 可 以 抓 取 
其 周围 竞争 对 手 酒店 的 评论 数据 ,作为 对 比分 析 依 据 。 结 合 网 站 上 的 客户 点 评 数据 ,可 以 提 
取 客 户 对 酒店 的 评分 、 评 论 内 容 、 评 论 人 ,评价 数量 ,评价 人 等 级 等 信息 ,并 将 上 述 文本 内 容 
进行 格式 化 存储 ,用 于 后 续 的 数据 分 析 。 

1. 使 用 软件 工具 抓 取 评 论 

由 于 网 站 上 的 评论 数据 成 千 上 万 条 . 靠 人 工整 理 效 率 低下 且 易 出 错 ,可 以 使 用 “ 八 不 鱼 
(http://www. bazhuayu. com) ”等 工具 软件 实现 内 容 自 动 抓 取 , 操 作 过 程 简单 快速 ,其 原理 
是 模拟 浏览 器 对 网 站 的 浏览 ,在 页 面 加 载 完成 之 后 ,通过 提取 页 面 HTML 代码 中 的 对 应 节 
点 的 文本 内 容 来 获取 网 站 上 的 目标 数据 ,数据 提取 之 后 以 文本 文件 方式 存储 ,对 于 海量 评论 
数据 ,还 可 提供 云端 抓 取 和 下 载 。 

2. 用 户 评 论 内 容 抓 取 

“携程 ”网 站 上 对 酒店 的 评论 页 面 是 分 页 显示 评论 内 容 的 ,需要 制作 两 级 规则 来 抓 取 数 
据 : 第 一 级 规则 模拟 单 击 “ 更 多 点 评 ” 按 钮 ,并 设置 候 虫 路 线 链接 到 下 级 规则 ; 第 二 级 规则 
通过 重复 单 击 下 一 页 的 仆 虫 路 线 抓 取 数 据 。 

1) 抓 取 规则 设置 

首先 命名 主题 名 为 “A 商务 宾馆 demo”, 规 则 编号 默认 ,页 面 地 址 就 是 需要 抓 取 数 据 的 
网 址 ， 如 图 8. 2 所 示 。 注意 ,要 对 主题 名 进行 查 重 ， 和 
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8.2 数据 抓 取 命名 





然后 在 “创建 规则 ”的 整理 箱 操作 区 单 击 “ 新 建 ”, 命 名 为 “列表 ”。 单 击 浏览 器 中 的 “查看 
全 部 点 评 ”, 定 位 到 该 按钮 的 div 节点 ,如 图 8. 3 所 示 。 
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图 8.3 创建 规则 -新 建 


然后 如 图 8.4 所 示 , 右 击 “# text”, 选 择 “ 内 容 映射 ", 将 文本 映射 到 设置 的 抓 取 内 容 “ 模 
拟 单 击 标志 ”。 
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8.4 创建 规则 -选择 映射 


上 述 操作 是 模拟 人 在 浏览 网 页 过 程 中 单 击 了 “查看 全 部 点 评 ”, 使 用 页 面 跳 转 到 酒店 评 
论 的 列表 页 面 , 供 后 续 循 环 单条 抓 取 。 

2) 设置 怜 虫 路 线 

步骤 如 下 : 在 操作 区 单 击 “ 新 建 "新 建 线索 ,并 命名 为 “线索 一 ”; 设置 “连贯 抓 取 ”, 选 择 
记号 线索 ; 单 击 “ 查 看 更 多 点 评定 位 到 其 对 应 的 div 节点 ,展开 节点 下 的 文件 夹 , 找 到 text 
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节点 。 右 击 “text 节点 ”, 选 择 “ 线 索 映射 "一 “定位 ”>“ 线 索 一 ”"。 然 后 选择 “线索 映射 "一 “ 记 
号 映射 ", 如 图 8.5 所 示 。 设 置 目标 主题 名 ,这 是 很 关键 的 一 步 , 因 为 这 是 接 下 来 的 主要 抓 取 
规则 。 这 里 的 目标 主题 还 不 存在 , 接 下 来 就 要 去 建立 这 个 抓 取 规则 。 
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和 ss 
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BD 


图 8.5 设置 仆 虫 路 线 


扑 虫 路 线 设置 完成 表示 整个 列表 的 循环 抓 取 开 始 ,软件 将 按照 设置 的 路 线 逐 个 抓 取 单 
条 评论 的 所 有 相关 内 容 。 

3) 第 二 级 抓 取 规则 

首先 命名 主题 名 为 在 第 一 级 规则 里 设置 的 目标 主题 名 , 即 *B 酒店 ”。 需 要 抓 取 的 内 容 
主要 是 在 用 户 评论 中 包含 的 内 容 。 图 8. 6 主要 包括 与 用 户 有 关 的 信息 : 用 户 昵 称 , 用 户 等 
级 ,用 户 历史 评论 情况 (点 评 总 数 ,评论 被 点 有 用 次 数 , 上 传 图 片 总 数 ); 用 户 的 订房 信息 : 出 游 
目的 ,入 住 时 间 , 入 住房 型 ; 用 户 的 评论 信息 : 评论 内 容 , 评 分 (包含 分 类 评分 ) ,评论 发 表 时 间 。 
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位 置 :40 设施 :5.0 服务 :5.0 卫生 :5.0 
D9 情 但 册 游 | ois 年 09 月 入 件 了 高强 大 床 记 
让 踏 21 号 ， 周 边 标志 万 达 广 场 、 牧 州 东方 人 民 医院 、 徐 州 美 院 等 ;酒店 今年 新 开业 ， 装 修 时 尚 简洁 ， 共 四 层 ， 
三 层 、 四 层 为 房间 ， 酒 店 格局 不 错 ， 中 间 布 置 了 院子 ， 房 间 环 院 而 建 ， 从 房间 看 过 去 ， 景 致 还 不 异 ， 有 现代 园林 
;房间 面积 不 小 ， 超 过 一 般 四 星 酒店 的 房间 ， 房 间 里 摆 放 了 绿 笋 和 空气 净化 器 ， 社 除 房间 装修 味 的 同时 又 美观 大 
床 房 248 元 ， 这 个 价格 够 实惠 ， 现 如 今 300 元 以 下 想 找到 一 个 舒心 的 酒店 ， 绝 对 不 容易 ;酒店 服务 必须 称赞 ， 入 住 的 
间 灯 带电 源 开 关 有 问题 ， 跟 映 后 ， 工 作 人 员 很 快 到 房间 查看 ， 在 当晚 不 好 解决 问题 的 情况 下 ， 不 仅 换 了 房 
间 ， 还 另外 赠送 了 两 张 早餐 券 ， 主 动 服务 意识 SO 强 ! 
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新 建 整理 箱 , 添 加 需要 抓 取 的 内 容 , 针 对 不 同 的 抓 取 内 容 需 要 不 同 的 抓 取 方 法 ,下 面 主 
要 介绍 几 种 特殊 的 抓 取 规则 。 

1) 用 户 等 级 抓 取 

因为 用 户 等 级 的 div 节点 不 是 text, 所 以 没 办 法 直接 抓 取 文本 。 只 能 通过 高 级 设置 的 
自 定义 xpath 来 抓 取 class 的 文本 。 步 又 如 下 : 单 击 “ 点 评 新 星 ”, 找 到 对 应 的 div 节点 ,展开 
节点 找到 如 图 8.7 所 示 的 “@class” 节 点 ; 在 该 节点 处 右 击 ,选择 内 容 映 射 到 “用 户 等 级 ”; 
然后 选择 抓 取 内 容 中 的 “用 户 等 级 ”, 单 击 “ 高 级 设置 "; 选择 “ 自 定义 xpath”“ 文 本 内 容 ”, 设 
置 抓 取 内 容 表 达 式 如 图 8.7 所 示 ,并 保存 。 
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图 8.7 用 户 等 级 抓 取 


2) 点 评 总 数 , 评 论 被 点 有 用 次 数 、 上 传 图 片 总 数 抓 取 

因为 只 有 鼠标 移动 到 “评分 ”区域 时 ,这 些 信息 才 会 悬浮 显示 ,所 以 不 能 直接 抓 取 到 text 
信息 。 找 到 用 户头 像 对 应 的 节点 ,在 节点 对 应 的 属性 找到 这 些 数据 存放 的 节点 ,如 图 8. 8 所 
示 的 @data-usefulcount 和 @data-img-count 等 , 右 击 “内 容 映 射 " 即 可 。 
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图 8.8 点 评 总 数 , 评 论 被 点 有 用 次 数 、 上 传 图 片 总 数 抓 取 
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3) 入 住房 型 抓 取 

虽然 房型 对 应 的 节点 有 text 文本 ,但 通过 查看 网 页 ,发现 并 不 是 所 有 的 房型 节点 都 有 
类 似 的 text 节点 ,会 出 现 漏 抓 的 情况 ,所 以 通过 自 定 义 xpath 的 方式 抓 取 比较 稳妥 。 步 又 如 
下 : 单 击 “ 和 颐 高 级 大 床 房 ”, 找 到 对 应 的 div 节点 ; 找到 属性 里 的 “@ data-baseroomname”, 布 
键 单 击 它 并 选择 内 容 映 射 到 和 人 住房 型; 单 击 * 和 住房 型 ,选择 “高 级 设置 "; 在 弹出 的 界面 
里 选择 “ 自 定 义 xpath” 和 “文本 内 容 ”, 设 置 抓 取 内 容 表 达 式 如 图 8. 9 所 示 ,最 后 保存 。 
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图 8.9 入住 房型 抓 取 


4) 各 类 评分 抓 取 

对 分 类 评分 信息 的 抓 取 是 通过 评分 节点 的 @data-value 属性 ,如 位 置 .设施 .服务 .卫生 
评分 。 步 又 如 下 : 单 击 图 8. 10 所 示 的 评分 区 域 ,找到 相应 的 div 节点 。 展 开 节 点 ,找到 包含 
“@data-value” 的 节点 , 右 击 “内 容 映射 " 即 可 。 
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如 图 8. 11 所 示 , 单 击 “ 下 一 页 ”, 找 到 “下 一 页 ”对 应 的 节点 ,并 设置 内 容 映 射 ,目标 主题 
名 依然 是 当前 规则 。 这 样 就 可 以 得 到 对 每 一 页 重复 抓 取 的 路 线 。 






































ov 
nr arr 
em 
ma 人 [i] 下 点 评 (6133) 
Car 两 机 
am， ma 
一 es 
TIN a 
ARRNANE, 1 mT Amt 国 
Daarape WO 国 
opm san 
a 
可 Doooo 可" 





图 8.11 设置 候 虫 路 线 


在 DS 打数 机 里 添加 线索 , 即 需要 抓 取 内 容 的 网 站 , 单 击 * 单 搜 ”按钮 即 可 。 


芒 DS 打数 机 - DataScraper - 协同 化 海量 抓 取 网 页 内 容 并 存 成 结构 化 结果 文件 
文件 配置 高 级 耻 中 群 窗口 帮助 


























图 8.12 数据 抓 取 


通过 DS 打数 机 的 抓 取 , 得 到 一 系列 xml 文件 ,每 一 页 内 容 对 应 一 个 。 通 过 “ 八 爪 鱼 ? 里 


的 转换 功能 将 这 些 文件 打包 转换 为 Excel, 如 图 8. 13 所 示 。 
将 xml 文 件 生成 压缩 包 , 然 后 使 用 “导入 数据 ”, 刷 新 后 即 可 导出 数据 ,如 图 8. 14 


所 示 。 
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DD ntiTdemo1_278255077 299374619.xml 2016/12/18 20:11 XML 文 知 10kB 
[D 向 HH 红 demol_278255077_299383089xml 20erlznaz011 XxML 文 二 10kB 
DD MTdemo1_278255077_299395680xml 2016/12/18 2011 XML 文 全 KB 
DD 枫 Ht 红 demol 278255077 299404145xeml 2016/12/18 2012 XML 文生 10KB 
DD ntiTdemo1 278255077 299412621.xml 2016/12/18 2012 XML 文 焙 10KB 
DD grthTdemo1_278255077_299421113.xml 2016/12/18 2012 XML 文 和 9KB 
[DD MHLdemo1_278255077_299429600.xmnl 2016/12/18 20:12 XML 文 巷 BKB 
DD it demo1_278255077 299438084xml 2016/1218 2012 XML 文革 9KB 
DD 机 Bt 红 demol_278255077 299446484xml 2016112118 2012 XML 广 巷 9kB 
DD) ntiTdemo1_278255077 299454830.xml 2016/12118 20:12 XML 文臣 9 KB 
DD matiTdemo1_278255077 299463272.xml 2016/12/18 2013 XML 文本 9 KB 
DD MHiTdemo1_278255077_299471740xml 2016/12/18 20:13 XML 文革 9 KB 
[DD 向 HH 红 demo1_278255077_299480216zml 2016/12/18 2013 XML 文臣 9 KB 
DD gtiTdemo1_278255077_ 299488723.eml 2016/12/18 2013 XML 文革 9 KB 
[DD 枫 HHTdemo1_278255077_299497225.ml 206N2N18 2013 XML 文本 9 KB 
DD) qthTdemo1_278255077_299505744.xml 2016/12N18 2013 XML 文革 9 kB 
DD itdemo1_278255077_299514204xml 206N2Nn8 2013 XML 文革 9 KB 
口 枫 时 红 demol_278255077_299522675xml 2016112118 2013 XML 文 芒 9 KB 
[DD gantiTdemo1_278255077_299531207.xml 2016112118 2014 XML 时 gke 
DD) MetiTdemo1_278255077_299539690xml 2016/12/18 20"14 XML 广 贡 gke 
DD tiTdemo1_278255077_299548166xml 2016N12/18 2014 XML 广 三 gkB 
[METdemo1_278255077_299556623.xml 2016/12/18 20:14 XML 文 熙 9 KB 
DD atiTdemo1_278255077_299565131.xml 2016/12/18 20:14 XML 文本 9 KB 
DD 机 HTdemo1_ 278255077 299573684.xml 2016/12/18 2014 XML 文本 9 KB 
DD stiTdemo1_278255077 299582158.xml 8KB 








ee 





ee 





图 8.14 数据 抓 取 结 果 一 一 Excel 展示 


8.3 通过 Python 编程 抓 取 评 论 


由 于 “ 八 爪 鱼 ” 软 件 为 收费 软件 ,未 付费 用 户 仅 能 获取 少量 数据 ,并 且 其 原理 是 模拟 浏览 
器 的 浏览 过 程 ,需要 等 整个 网 页 都 加 载 完 成 后 才 可 以 提取 内 容 , 网 站 上 的 广告 .图 片 等 显示 
耗费 较 多 网 络 资源 , 抓 取 时 间 耗 时 较 长 。 为 了 快速 提取 评论 内 容 , 使 用 Python 编程 的 方 
式 , 调 用 Firefox 浏览 器 插件 功能 ,实现 从 网 络 上 人 疏 取 商务 宾馆 的 评价 信息 和 评分 ,其 优点 
除了 抓 取 时 间 短 .效率 高 之 外 ,更 重要 的 是 可 以 通过 编程 的 方式 实现 抓 取 内 容 和 过 程 的 定 
制 化 。 

这 里 主要 基于 Python 语言 实现 ,因此 所 用 怜 虫 框 架 及 网 站 解析 框架 均 使 用 Python 第 
三 方 包 。 
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(1) 下 载 并 安装 Python 2.7 版 本 ,下 载 网 址 为 https://www. python. org/ downloads/ 。 

(2) 下 载 并 安装 getckodriver, 这 是 操作 火狐 浏览 器 的 驱动 ,下 载 网 站 为 https:// 
github. com/mozilla/geckodriver/releases。 

(3) 安装 火狐 浏览 器 。 

(4) 下 载 并 安装 scrapy, 这 是 Python 的 疏 虫 框架 ,可 通过 命令 pip install scrapy 安装 ， 
也 可 到 scrapy 网 站 直接 下 载 包 安 装 。 

(5) 下 载 并 安装 selenium ,安装 命令 为 pip install selenium。 

(6) 实验 前 需要 实验 者 具备 一 定 的 Python 基础 知识 ,并 且 需 要 了 解 scrapy 的 基本 使 
用 ,需要 熟悉 xpath 语法 。 安 装 好 selenium 后 需要 参考 它 的 说 明文 档 了 解 webdriver 的 
使 用 。 

编写 Python 脚本 的 过 程 如 下 : 

(1) 创建 项 目 。 

安装 好 scrapy 后 ,开启 cmd 窗口 ,可 通过 命令 scrapy startproject hotel 来 创建 hotel 项 
目 。 如 果 系 统 无 法 识别 scrapy, 则 把 Python 的 环境 变量 路 径 加 到 系统 中 。 默 认 Python 安 
装 到 C 盘 , 则 需要 添加 的 环境 变量 为 C:\\Python\\ 和 C:\\Python27\\Scripts。 

项 目 创建 成 功 后 会 产生 一 个 hotel 文件 夹 , 里 面包 含 hotel 文件 夹 和 scrapy. cfg 文件 。 
进 到 hotel 文件 夹 下 的 spiders 文件 夹 ,创建 hotel_spider. py 文件 。 在 hotel 文件 夹 下 的 
settings. py 文件 中 进行 如 下 配置 : 

BOT_NAME = 'hotel' 


SPIDER_MODULES = ['hotel. spiders'] 
NEWSPIDER_MODULE = 'hotel. spiders' 


至 此 ,项 目 创建 完毕 , 接 下 来 主要 修改 spiders 文件 夹 下 的 hotel_spider. py。 

(2) 编写 规则 。 

修改 hotel_spider. py 文件 ,增加 HotelSpider 类 ,该 类 继承 于 Spider 文件 ,需要 导入 如 
下 包 : 


from selenium import webdriver 

from scrapy. Spiders import Spider 
from scrapy. Selector import Selector 
from scrapy. http import Request 
import requests 


为 HotelSpider 类 添加 类 变量 name,allowed_domains,start_urls。 其 中 ,name 为 该 疏 
虫 的 名 字 ,allowed_domains 为 允许 候 虫 候 取 的 网 站 列表 ,start_urls 为 候 虫 开始 和 候 取 的 网 站 
列表 。 以 候 取 携程 网 为 例 ,这 3 个 参数 可 以 设置 如 下 (2906601. html 为 A 商务 宾馆 在 携程 
的 网 页 )。 

name = "hotel" allowed domains = [r"http://hotels. ctrip. com/hotel/2906601. html"] 

start_ urls = [r"http://hotels. ctrip. com/hotel/2906601. html", ] 

接 下 来 编写 parse 函数 , 当 有 息 虫 开始 工作 后 ,parse 函数 将 承担 解析 工作 。 

parse 函数 为 被 动 触发 函数 ,参数 为 response, 这 个 response 包含 所 有 网 页 和 请 求 返 回 
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的 所 有 信息 。response 支持 xpath 解析 ,xpath 为 疏 虫 的 主要 解析 方式 。 
用 火狐 浏览 器 打开 A 商务 宾馆 在 携程 的 网 页 ,并 右键 选择 查看 元 素 , 则 出 现 火狐 的 网 
页 调试 窗口 ,如 图 8. 15 所 示 。 
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图 8.15 元 素 提取 页 面 


点 选调 试 窗口 最 左 侧 的 元 素 选择 图 标 ,再 单 击 页 面 上 需要 定位 的 元 素 , 则 调试 器 窗口 内 
会 显示 该 元 素 的 html 源码 。 如 果 需 要 解析 这 部 分 内 容 , 则 需要 编写 相应 的 规则 。 例 如 , 需 
要 提取 标题 , 则 先 找 到 标题 的 html 元 素 : 

<h2 class = "cn_n”itemprop = "name"> A 商务 宾馆 </h2> 

通过 xpath 解析 标题 ,写法 : 

'//h2[contains(@class, "cn_n")]/text()' 

使 用 response 提取 的 完整 写法 为 : 

response. xpath( '//h2[contains(@class, "cn_n")]/text()').extract() 

这 样 可 提取 h2 标签 ,并 且 class 为 cn_n 的 元 素 , 即 我 们 需要 的 标题 。 

网 页 上 的 其 他 内 容 信息 原理 相同 , 当 xpath 匹配 多 条 时 , 则 返回 列表 ,这 在 解析 客户 评 
价 的 时 候 非常 有 用 。 

通过 解析 http://hotels. ctrip. com/hotel/dianping/2906601. html 可 获得 点 评 数据 , 因 
为 点 评 数据 为 分 页 数据 ,所 以 通过 Python 的 循环 仆 取 ,把 网 页 链接 存 到 列表 里 ,然后 依次 
解析 并 保存 每 一 个 网 页 的 评价 。 

可 以 通过 selenium 的 webvriver 模块 操作 火狐 浏览 器 来 解析 每 一 个 评价 网 页 。 


browser = webdriver. Firefox() 
browser. get (url) 


以 上 两 行为 获取 一 个 火狐 浏览 器 并 加 载 url 到 火狐 浏览 器 内 。 完 成 后 ,browser 有 方法 
可 进行 xpath 解析 。 
某 些 网 站 可 能 通过 post 请 求 来 获取 数据 ,此 时 可 使 用 Python 的 requests 模块 来 实现 





post 的 交互 。 

通过 命令 行 scrapy crawl hotel 即 可 激活 怜 虫 疏 取 数据 ,经 过 parse 函数 解析 后 保存 到 
文件 。 

本 实验 的 demo 源码 parse 内 实现 的 是 对 艺 龙 网 的 疏 取 ,如 需 爬 取 携 程 , 则 可 将 parse 
函数 注释 ,修改 parse_ctrip 函数 名 为 parse, 并 且 修改 start_urls 内 的 网 站 为 ctrip 的 网 站 。 
疏 取 的 网 站 数据 分 别 会 保存 到 log. txt 以 及 elong. txt 中 。 


8.4 数据 预 处 理 


抓 取 到 的 数据 非 标准 化 内 容 较 多 ,特别 是 用 户 评价 具有 较 大 的 随意 性 ,直接 应 用 会 对 分 
析 结 果 产 生 较 大 干扰 ,所 以 需要 对 数据 进行 预 处 理 , 包 括 异常 数据 过 滤 和 数据 整理 。 

首先 将 数据 库 随意 性 评论 数据 进行 删除 ,如 一 长 串 的 “好 ”不 错 " 等 字 , 随 意 输入 的 英文 
字母 等 ,剔除 26 条 。 对 用 户 评分 空 值 或 者 明显 异常 的 数据 进行 筛选 去 除 。 在 获取 的 原始 数 
据 集中 ,异常 值 均 为 空 值 ,将 为 空 值 的 评价 数据 直接 剔除 。 由 于 酒店 评价 是 按照 房间 进行 
的 ,如 果菜 客人 一 次 订 了 多 间 房 ,可 能 会 重复 评论 相同 的 内 容 , 这 部 分 数据 易 影响 词 频 分 析 ， 
故 将 同一 人 同一 次 入 住 的 重复 评论 剔除 。 将 某 些 凑 字 数 的 评论 中 重复 输入 的 文字 移 除 , 只 
保留 其 中 一 个 。 如 经 初步 筛选 及 过 滤 的 结果 如 图 8. 16 所 示 。 


T DU 4 


位 置 
]16 年 10j2016/10/8 从 徐州 东 站 的 西 广场 出 来 ， 往 右手 边 看 就 可 以 看 到 
216 年 11f2016/11/6 酒店 上 次 入 住 就 没 找到 地 方 ， 跟 着 导航 报 难 找 的 。: 
]16 年 1012016/10/ 设施 还 不 错 ， 担 干净 ， 就 是 晚上 走廊 肝 步 声 太 多 1 
)16 年 1112016/11/27 有 点 典 炊 一 次 入 住 , 客房 紧张 没有 千 边 的 房间 了 ,| 
216 年 10f2016/10/7 酒店 新 开 ， 位 于 高 铁 站 笠 对 面 的 右手 边 的 绿地 集团 
216 年 11f2016/11/17 高 铁 东 站 旁边 ， 非 常 方便 。 酒 店 前 台 很 热情 ， 酒 店 ; 
216 年 10f2016/10/18 房间 非常 干净 整洁 ,宽敞 明亮 ， 服 务 也 很 好 ， 高 高 : 
16 年 12f2016/12/9 不 错 吹 吹 响 ， 不 错 up 的 ,不错 的 啊 。。。。。。 高 
216 年 09f2016/9/11 过 来 这 边 就 选 这 家 酒店 ， 敲 高铁 比较 近 ， 摄 好 的 ，| 
D16 年 06 上 2016/7/29 高 火车 站 很 近 ， 该 酒店 下 次 去 还 会 住 的， 交通 很 大 
16 年 11f2016/11/23 ”酒店 高 高 铁 站 很 近 ， 步 行 五 分 钟 。 唯 一 不 足 就 是 指 ; 
216 年 11f2016/11/13 性价比 非常 高 的 一 个 酒店 。 下 楼 料 对 面 就 是 高 铁 站 
216 年 08f2016-08-18( 本 ;干净 的 酒店 ,出 门 就 是 高 铁 。 晚 上 零点 楼 层 异 响 持 : 
216 年 11f2016/11/9 房间 不 错 很 安静 ， 美 中 不 足 就 是 周边 吃饭 的 地 方太 ; 
16 年 10f2016/10/14 高 徐州 东 站 非常 近 ， 走 几 分 钟 就 到 。 享 内 打扫 摄 干 , 
)16 年 1012016/10/5 非常 好 的 商务 酒店 ， 绿 地 开发 的 房子 第 一 印象 就 不 ; 
216 年 10f2016/10/7 在 徐州 东 站 转车 住 了 一 晚 。 酒 店 大 堂 服务 态度 好 ，; 


16 年 12f2016/12/14 高 高 铁 站 近 ， 方 便 
Mc 和 11 fonic i110 旋 饭 要 到 | 语 狂 吃 乙 才 ” 周 总 没有 条 庄 . 沽 庄市 语 镍 - 


图 8.16 经 初步 筛选 及 过 滤 的 结果 


情感 分 析 、 主 题 分 析 的 对 象 都 是 用 户 的 评论 数据 ,需要 对 数据 进行 必要 筛选 ,以 提高 后 
续 分 析 的 质量 ,其 中 A 商务 宾馆 的 评论 数据 条 数 为 751 条 ,B 酒店 的 为 2351 条 ,C 商务 宾馆 
的 为 1050 条 。 将 抓 取 到 的 txt 格式 文本 复制 到 空 Excel 文件 中 形成 格式 化 文档 ,新 建 数 据 
库 表 , 表 结 构 与 Excel 中 的 列 名 一 致 ,另外 新 增 一 个 酒店 名 称 字段 ,用 于 区 分 酒店 的 评论 ,将 
3 家 酒店 的 数据 分 别 导 入 ,形成 统一 的 数据 集合 。 

为 了 更 好 地 分 析 评 分 走势 ,新 增 字 段 累 计 综 合 评 分 和 累计 评论 总 数 , 以 周 为 单位 统 
计 平 均 分 和 评论 数 , 将 平均 值 按 照 周 的 顺序 逐 周 累加 ,形成 累计 平均 综合 评分 和 累计 评 
论 总 数 。 
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8.5 商务 宾馆 客户 数据 分 析 


在 数据 获取 和 预 处 理 之 后 ,通过 对 A 商务 宾馆 的 评论 数据 进行 建 模 分 析 , 得 到 宾馆 在 
各 个 方面 的 点 评 结 果 。 首 先 分 析 宾馆 评分 的 主要 影响 因素 ,并 依 此 对 酒店 进行 基础 分 析 、 消 
费 者 决策 分 析 、 与 同类 酒店 的 竞争 分 析 。 


8.5.1 酒店 评分 影响 因素 


数据 整理 之 后 依然 具有 较 多 维度 ,通过 使 用 决策 权 分 析 、Apriori 关联 分 析 对 酒店 评价 
的 主要 影响 因素 进行 分 析 , 获 取 与 评分 高 低 相 关 的 变量 。 

将 A 商务 宾馆 .B 酒 店 .C 商务 宾馆 的 评论 数据 中 的 综合 评分 以 箱 图 的 格式 显示 ,如 
图 8. 17 所 示 , 可 以 看 到 评分 主要 分 布 为 4.0 一 5.0 分 ,说 明 B 酒 店 的 分 值 最 集中 ,几乎 接近 
5.0 分 ,而 A 商务 宾馆 次 之 ,综合 评分 在 4.2 以 上 ,C 商务 宾馆 的 评分 分 布 较 差 ,分 值 为 
4.0 一 5.0。 
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40000 











1 ba 二 的 
A 商务 宾馆 B 酒 店 C 商 务 宾馆 
酒店 名 称 


图 8.17 各 酒店 的 综合 评分 箱 图 


从 图 8. 17 中 可 以 看 出 酒店 之 间 的 评分 差异 较 明显 ,为 了 分 析 酒 店 的 评分 与 哪些 因素 相 
关 , 我 们 将 评论 的 内 容 进行 分 词 、 去 掉 停 用 词 、 去 掉 “ 酒 店 “ 房 间 ” 等 被 评价 主体 词汇 ,然后 将 
得 到 的 分 词 结果 进行 词 频 统 计 , 获 得 关键 词 的 排名 和 词 频数 ,将 其 以 标签 云 的 形式 显示 出 
来 ,如 图 8. 18 所 示 。 





; . _ 他 过 2 法 
A 人 


8.18 评论 内 容 关 键 词 标 签 云 
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从 标签 云 中 可 以 看 出 ,客人 最 关心 的 因素 是 服务 ,其 次 是 早餐 、 设 施 \ 干 净 、 卫 生 、 前 台 、 
环境 、 热 情 、 方 便 、 位 置 、 态 度 、 高 铁 等 。 

从 图 8. 19 中 可 以 看 出 ,出 现 早 餐 关键 字 的 评论 中 ,其 评分 的 区 分 度 较 高 ,但 是 其 与 评分 
成 反比 , 即 评论 出 现 了 早餐 字样 ,说 明 是 负面 评价 较 多 。 设 施 关 键 字 并 没有 区 分 度 ,因为 出 
现 这 一 关键 字 评 价 中 的 各 项 评分 几乎 没有 太 多 差别 。 干净 和 卫生 为 同一 意义 ,其 区 分 度 基 
本 一 致 ,前 台 具 有 和 较 高 区 分 度 , 提 到 前 台 的 评论 中 基本 上 是 正面 评价 。 















































"单元 格 内 容 平 均值 "单元 格 内 容 平均 值 
| 字 披 | 无 关键 于” 有 关键 字 ” 重要 性 | 守 耻 有 关键 字 ” 
综合 评分 4534 4.835 1000 | | 综合 评分 4639 4547 0988 
冉 重 要 因 重 要 
位 置 评分 4387 4740 1.000 位 置 评分 4.509 4408 0971 
因 生 要 因 重 要 
设施 评分 4511 4830 ”1000 设施 评分 4625 4513 0993 
畴 重 要 固 重 要 
服务 评分 4501 4848 ”1.000 | | 服务 评分 4628 4484 0999 
因 重 要 因 重 要 
卫生 评分 4.688 4899 1000 卫生 评分 4756 4728 0595 
固 重 要 回 不 重要 
"单元 格 内 容 平 均值 
| 字 据 。 无关 键 字 ”有 关键 字 重要 性 
综合 评分 4622 4642 ”0375 
不 重要 
位 置 评分 4493 4489 0.060 
本 不 重要 





设施 评分 4601 4646 0659 



































8.19 服务 .早餐 .设施 干净、 卫生 ,前 台 关 键 字 的 双 样 本 :检验 结果 


从 图 8. 20 中 可 以 看 出 ,环境 ,热情 具有 较 高 区 分 度 ,都 为 正面 评价 ; 而 方便 .位置 .态度 
不 具有 区 分 价值 ,正面 和 负面 评价 均 有 ; 出 现 高 铁 关键 字 的 评论 中 ,对 设施 和 卫生 评分 没有 
区 分 价值 ,对 其 他 分 项 的 评分 虽然 被 标记 为 重要 ,但 是 其 分 值 的 区 分 度 也 不 明显 。 

综 上 ,具有 较 高 的 区 分 度 的 主要 热 词 有 : 服务 、 早 餐 ( 负 面 ) 干净、 卫生 、 前 台 、 环 境 、 热 
情 、 高 铁 。 

使 用 CART 分 类 回归 树 模型 对 评论 中 的 各 分 项 评分 以 及 用 户 级 别 、 出 行 类 别 、 房 型 等 
进行 分 类 回归 分 析 , 结 果 如 图 8. 21 所 示 , 从 变量 的 重要 性 可 以 看 出 服务 评分 与 综合 评分 具 
有 和 较 高 的 一 致 性 ,并 且 其 重要 性 也 最 高 ,也 与 双 样 本 1 检验 的 结果 相同 。 
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案例 分 析 
"单元 格 内 容 平 均值 
字段 无 关键 字 ”有 有 关键 字 ” 
综合 评分 4.596 4801 
位 置 评分 4.463 4.680 
设施 评分 4578 4787 
服务 评分 4573 4812 
卫生 评分 4728 4897 














位 置 评分 4.494 4487 0.111 位 置 评分 4.487 4574 0785 
回 不 重要 加 不 重要 
设施 评分 4613 4571 0673 设施 评分 4.607 4601 0072 
国 不 重要 固 不 重要 
服务 评分 4615 4545 0891 服务 评分 4.603 4642 0.458 
固 不 重要 回 不 重要 
卫生 评分 4755| 4729 0541 卫生 评分 4754 4716 0535 
回 趟 重要 可 不 重要 






































服务 评分 4667 4.602 


卫生 评分 4772 4750 








图 8.20 环境 ,热情 ,方便 ,位 置 态 度 、 高 铁 关 键 字 的 双 样本 1 检验 结果 


目标 : 综合 评分 





0.2 0.4 0.6 


8.21 CART 分 类 回归 树 分 析 影响 因素 
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对 酒店 评价 高 的 一 般 情况 下 服务 评分 也 较 高 ,酒店 卫生 方面 的 重要 性 稍微 次 于 服务 ,而 
酒店 所 在 位 置 的 影响 因素 较 弱 , 即 与 酒店 整体 的 评分 关系 并 不 强 ,可 能 是 由 于 目前 交通 较为 
便利 ,对 酒店 地 理 位 置 的 要 求 没有 服务 水 平和 卫生 条 件 那 么 高 ,客人 更 重视 入 住 之 后 的 心理 


感受 和 卫生 情况 。 
详细 的 分 类 结果 如 图 8. 22 所 示 ,服务 评分 以 4. 5 为 界限 进行 分 类 , 低 于 4.5 分 的 评论 


数 为 457 条 , 占 总 数量 的 27. 431% ,高 于 4. 5 分 的 评论 数 为 1209 条 , 占 总 数 的 72. 569% 。 


其 他 各 项 评分 的 分 类 详情 可 查看 图 中 标注 。 
综合 评分 





节点 0 
n 1666 
100.000 















































预测 4.617 
加 | 
服务 评分 
改进 =0.269 
| 
> 4.500 
节点 2 
n 1209 
% 72.569 
预测 ”4.936 
卫生 评分 位 置 评分 
改进 =0.081 改进 =0.013 
>4.500 
节点 6 
n 1042 
% 62.545 
预测 4.989 
设施 评分 
改进 =0.002 

















图 8.22 详细 的 分 类 结果 


8.5.2 酒店 评分 与 酒店 业绩 关系 

在 成 本 比较 稳定 的 情况 下 ,酒店 的 业绩 收入 主要 由 入 住 客人 的 数量 决定 ,由 于 无 法 直接 
取得 酒店 中 的 实际 经 营 数据 ,但 是 酒店 的 评论 数量 与 酒店 入住 数量 为 正比 关系 , 即 通常 情况 
下 酒店 的 评论 的 数量 较 多 时 ,入 住 客人 数量 也 越 多 。 所 以 ,通过 分 析 某 一 段 时 间 内 评论 数量 
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和 综合 评分 的 走势 情况 来 分 析 酒店 评分 对 酒店 业绩 的 影响 。 

首先 ,以 周 为 统计 单位 计算 酒店 综合 评分 的 平均 分 和 评论 条 数 总 数 ,然后 将 评论 的 周平 
均 分 和 周 评论 总 数 累加 ,形成 累计 值 ,这 样 可 以 从 中 看 出 总 评分 和 总 评论 数 随时 间 ( 周 ) 变 化 
的 趋势 情况 。 

图 8. 23 是 以 时 间 散 点 图 的 形式 显示 3 家 酒店 的 评分 和 评论 数 走势 ,曲线 的 斜率 说 明了 
其 数量 增长 速度 ,可 以 看 到 A 和 B 两 家 酒店 中 , 随 着 评分 上 升 ,评论 数量 旦 更 快速 的 增长 ， 
直观 上 说 明 评 论 分 值 可 以 对 入 住 数 量 形成 促进 作用 ; 而 C 商务 宾馆 在 2016 年 6 月 之 前 走 
势 基 本 与 前 两 者 相同 ,但 是 随 着 评分 增长 速度 变 缓 ,其 评论 数量 的 增长 率 越 来 越 小 ,说 明 评 
分 呈 下 降 时 ,影响 到 酒店 的 业绩 。 
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图 8.23 以 周 为 单位 的 累计 评分 和 累计 评论 数 不 同 酒店 对 比 


为 量化 累计 综合 评分 和 累计 评论 数量 之 间 的 关系 ,将 两 者 应 用 于 回归 分 析 中 ,得 到 


图 8. 24 所 示 的 结果 ,可 以 看 出 模型 的 增长 曲线 走势 情况 ,3 家 酒店 的 相关 系数 均 达 到 98% 
以 上 。 











8.24 回归 分 析 累 计 评分 与 累计 评论 数 关系 

其 中 ,B.C、A 酒店 的 R 方 值 分 别 为 0. 968、0. 973、0. 982 ,如 图 8. 25 所 示 ,说 明 两 者 存 
在 较 强 的 相关 关系 。 

不 同 酒店 的 回归 分 析 相 关系 数 结果 如 图 8. 26 所 示 ,分 别 对 应 BC、A 酒店 。 

综 上 ,说 明 酒 店 评分 可 以 直接 影响 酒店 的 经 营业 绩 , 如 果 综 合 评分 显示 较 高 ,可 以 促进 
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Model Summary 
Adjusted R Std.Error of 
Model R R Square Square the Estimate 
1 0.984° 0.968 0.968 9.076677 











a.Predictors:(Constant), 周 评论 数 








Model Summary 
Adjusted R Std.Error of 
Model R R Square Square the Estimate 
1 0.986° 0.973 0.973 23.525535 











a.Predictors:(Constant), 周 评论 数 




















Model Summary 
Adjusted R Std.Error of 
Model R R Square Square the Estimate 
1 0.991* 0.982 0.982 10.734467 











a.Predictors:(Constant), 周 评论 数 


图 8.25 B.C、A 酒店 以 周 为 单位 的 累计 评分 和 累计 评论 数 回归 结果 






































Coefficients 
Standardized 
Unstandardized Coefficients| Coefficients 
Model B Std.Error Beta t Sig. 
1 (Constant) 76.102 0.640 118.966 | 0.000 
周 评论 数 0.205 0.001 0.984 | 157.385 | 0.000 
Coefficients 
Standardized 
Unstandardized Coefficients| Coefficients 
Model B | Std.Error Beta t Sig. 
1 (Constant) -3.922 1.692 -2.318 | 0.000 
周 评论 数 0.621 0.004 0.986 | 168.395 | 0.000 
Coefficients 
. Standardized 
Unstandardized Coefficients| Coefficients 
Model B | Std.Error Beta t Sig. 
1 (Constant) 50.546 0.801 63.072 | 0.000 
周 评论 数 0.376 0.002 0.991 | 201.162 | 0.000 




















图 8.26 B.C、A 酒店 回归 分 析 相关 系数 


酒店 客人 的 入 住 量 ,如 果 点 评 网 站 上 的 评分 较 差 ,可 能 会 影响 客人 的 印象 ,导致 其 不 预订 ,最 
后 影响 酒店 的 业绩 。 


8.5.3 酒店 评分 分 析 


酒店 基础 分 析 包 括 评分 趋势 分 析 、 房 型 分 析 、 消 费 者 决策 分 析 等 。 酒 店 评分 随时 间 的 走 
势 反映 了 酒店 经 营 活动 是 否 良好 ,客观 反映 酒店 对 问题 的 改进 能 力 和 适应 变化 能 力 ,包括 总 
评分 及 各 分 项 评分 的 走势 . 按 房型 的 评分 走势 分 析 等 。 
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1. 酒店 评分 趋势 

通过 对 酒店 的 评价 分 值 按照 时 间 维度 进行 分 析 , 经 过 对 评价 数据 进行 按 月 度 统计 分 析 ， 
将 按照 总 平均 分 ,位置 评 分 .设施 评分 .服务 评分 .卫生 评分 进行 统计 ,可 以 看 到 每 个 月 的 点 
评 数量 ,间接 可 以 看 到 数据 的 支持 度 。 

所 有 房间 类 型 随时 间 变 化 情况 如 图 8. 27 所 示 ,可 以 看 到 对 酒店 中 所 有 房型 的 评分 呈现 
波动 性 ,评论 时 间 是 在 入 住 之 后 由 房客 评价 的 ,所 以 其 并 非 是 实际 的 入 住 时 间 , 会 有 一 定 的 
时 间 差 ( 儿 天 到 1 个 月 之 间 不 等 ), 具 有 延 后 效应 ,所 以 在 时 间 段 上 采用 较 模 糊 的 时 间 段 ,并 
非 严格 对 应 自然 月 。 


总 评分 及 分 项 分 数 随时 间 变化 情况 








2015-11 2015-12 2016-01 2016-02 2016-03 2016-04 2016-05 2016-06 2016-07 2016-08 2016-09 2016-10 2016-11 2016-12 
一 一 平均 分 一 = -位 置 评分 一 ，- -设施 评分 一 一 服务 评分 一 一 卫生 评分 
图 8.27 所 有 房间 类 型 随时 间 变 化 情况 


在 这 种 情况 下 ,虽然 只 有 659 条 评论 数据 ,但 是 依然 可 以 看 到 2016 年 3 月 到 2016 年 
4 月 评分 结果 较 差 ,而 2016 年 6 月 到 2016 年 8 月 之 间 的 用 户 评价 较 高 。 从 图 8. 27 中 可 以 
看 出 ,2016 年 3 一 4 月 之 后 由 于 评分 分 数 影响 到 了 酒店 经 营 ,在 其 之 后 进行 了 服务 质量 改 
进 ,逐渐 提高 了 客户 满意 度 ,如 改善 了 早餐 质量 等 。 图 8. 28 是 分 别 将 2016 年 7 月 和 
2016 年 9 月 的 评论 数据 进行 分 词 统计 词 频 之 后 得 到 的 词 频 标签 云 。 由 于 “ 东 站 ”高 铁 
站 ”等 词 作为 酒店 位 置 的 描述 ,在 问题 描述 中 无 实际 意义 ,所 以 在 生成 标签 云 过程 中 将 其 
去 除 。 

7 月 份 的 评价 总 体 较 高 ,原因 是 客人 评分 较 低 的 原因 中 大 部 分 是 环境 、 位 置 不 方便 找 、 
装修 有 味道 等 客观 因素 ,而 9 月 份 评价 较 低 的 主要 原因 更 多 是 人 为 的 因素 ,如 卫生 间 漏 水 、 
设施 未 及 时 维修 等 ,并 且 此 类 问题 在 评论 中 的 数量 较 多 ,一 个 月 有 33 条 评价 ,而 7 月 份 只 有 
17 条 。 从 9 月 份 的 评论 数据 中 可 以 看 出 管理 上 有 明显 的 失误 ,随后 经 过 调整 ,评分 升 高 ,但 
在 后 面 2 个 月 中 评分 又 开始 下 降 。 从 评分 走势 中 可 以 看 出 ,A 商务 宾馆 的 管理 和 服务 水 平 
并 不 稳定 ,显示 其 有 明显 的 管理 失误 和 漏洞 ,原因 可 能 是 人 员 流失 或 服务 标准 过 于 随意 。 
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图 8.28 2016 年 7 月 ( 左 ) 和 2016 年 9 月 ( 右 ) 的 得 分 评价 标签 云 


2. 房型 分 析 

从 房型 上 分 析 评分 情况 ,将 各 个 房型 中 对 应 不 同 评分 项 的 平均 分 进行 统计 ,结果 见 
表 8.1。 其 中 , 温 志 家 庭 房 和 观 景 双 大 床 房 评论 数 明显 极 少 , 只 有 3 条 评论 ,原因 可 能 是 这 
几 种 房型 之 间 的 区 别 较 少 , 没 有 太 高 区 分 度 ,导致 客人 选择 价格 较 低 的 舒适 大 床 房 ,从 表 8. 1 
中 可 以 看 出 ,舒适 三 人 间 的 评价 数 为 15 条 ,样本 数 较 少 ,其 较 高 的 4.6 分 值 不 作为 参考 ,上 
述 房 型 评论 数量 较 少 ,将 其 剔除 ,以 便 能 显示 出 其 他 各 房型 的 评价 差异 程度 。 


表 8.1 A 商 务 宾馆 房型 .评分 .评价 数 的 对 比 












































房 ” 型 综合 评分 位 置 评分 服务 评分 设施 评分 卫生 评分 “| 评论 数量 
大 床 房 4.525 81 4. 4409 4. 4731 4.5161 4.6344 93 
温馨 家 庭 房 5. 000 00 5. 0000 5. 0000 5. 0000 5. 0000 3 
舒适 三 人 间 4. 600 00 4. 4667 4. 40 4. 6000 4. 8667 15 
舒适 双 床 房 4.594 08 4. 5089 4. 5503 4. 5503 4.7278 169 
舒适 大 床 房 4.528 44 4. 4094 4. 5000 4.4875 4. 6781 320 
观 景 双 大 床 房 3.933 33 3.6667 3. 6667 4. 0000 4.3333 3 
阳光 双 床 房 4.562 50 4. 4375 4. 4688 4. 5625 4.7188 32 
阳光 商务 大 床 房 | 4.539 13 4.5217 .5217 4. 4783 4. 5652 23 


从 表 8. 1 中 的 数据 可 以 看 出 ,舒适 双 床 房 评 分 好 于 舒适 大 床 房 , 而 舒适 大 床 房 的 评论 数 
量 最 多 ,达到 320 条 ,几乎 是 第 二 名 舒适 双 床 房 的 2 信 , 因 为 通常 情况 下 . 单 人 人 入住 会 优选 大 
床 房 ,所 以 可 推断 酒店 的 主要 客户 为 单 人 人 入住 居多 ,但 是 从 表 8. 1 中 看 到 单 人 入 住 的 评价 分 
数 却 较 差 。 另 外 ,通过 分 析 原 始 数 据 记 录 ,在 数据 中 综合 评分 低 于 4. 0 分 的 舒适 三 人 间 评 论 
数 为 15 条 ,舒适 大 床 房 的 差 评 数量 为 40 条 ,而 对 位 置 评分 方面 ,舒适 双 床 房 为 14 条 ,舒适 
大 床 房 为 47 条 ,宾馆 中 所 有 房型 的 地 理 位 置 其实 是 一 样 的 ,间接 说 明 同样 的 服务 水 平 、 硬 件 
设施 情况 下 ,舒适 大 床 房 的 客人 各 方面 的 要 求 更 高 ! 

下 面 将 列 出 舒适 大 床 房 和 和 舒适 双 床 房 的 出 行 类 型 和 相对 应 的 评分 数值 来 观察 出 现 此 现 
象 的 主要 原因 。 

将 所 有 选择 了 舒适 大 床 房 的 客人 按照 其 出 行 类 别 进行 分 组 ,统计 各 出 行 类 别 下 的 各 项 
评分 分 值 ,结果 见 表 8. 2。 
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表 8.2 舒适 大 床 房 中 各 出 行 类 别 的 评分 对 比 


























出 行 类 别 综合 评分 位 置 评分 服务 评分 设施 评分 卫生 评分 | 评论 数 
代 人 预订 4.785 71 4.5714 4.8571 4. 8571 4.8571 7 
其 他 3. 800 00 3. 6000 3. 8000 4. 0000 3. 8000 5 
商务 出 差 4.523 18 4. 3906 4. 5064 4. 4893 4. 6695 233 
情侣 出 游 4. 483 87 4. 4839 4. 4194 4. 3548 4. 6129 31 
家 庭 亲子 4.700 00 4. 6875 4.4375 4. 6875 4. 9375 16 
朋友 出 游 4.745 83 4. 6250 4.7917 4.7083 4.8333 24 
独自 旅行 3.650 00 3. 2500 3. 5000 3. 2500 4. 5000 4 























表 8.2 中 的 * 代 人 预订 “其 他 ”独自 旅行 ” 几 类 出 行 类 别 因数 据 太 少 不 作 分 析 , 从 表 8. 2 
中 可 以 看 出 商务 出 差 作为 绝对 的 主流 出 行 类 别 , 情 侣 出游、 家庭 亲子 和 朋友 出 游 远 少 于 上 述 
人 群 ,分 别 只 有 31 条 、16 条 、24 条 ,将 这 几 类 出 行 类 别 的 各 项 评分 进行 可 视 化 ,结果 如 图 8. 29 
所 示 。 


























位 置 评分 服务 评分 设施 评分 


加 商务 出 差 和 情侣 出 游 四 家 庭 亲 子 ”四 朋友 出 游 
图 8.29 舒适 大 床 房 中 不 同 出 行 类 别 评分 对 比 


虽然 情侣 出 游人 群 的 评论 条 数 较 少 ,但 从 中 可 以 发 现 这 类 人 群 选择 了 舒适 大 床 房 后 对 
各 方面 的 要 求 高 于 商务 出 差 人 群 , 除 位 置 评分 外 ,包括 综合 评分 在 内 的 其 他 各 项 评分 都 为 最 
低 评分 ,这 一 人 群 对 服务 和 设施 的 要 求 较 高 (实际 评分 较 低 ) ,建议 宾馆 前 台 人 员 对 此 类 选择 
每 适 大 床 房 的 人 群 进行 特别 照顾 ,相应 提高 服务 标准 ,否则 会 拉 低 宾馆 的 整体 评分 。 
将 所 有 选择 了 舒适 双 床 房 的 客人 按照 其 出 行 类 别 进行 分 组 ,统计 各 出 行 类 别 下 的 各 项 
评分 分 值 ,结果 见 表 8. 3。 
表 8.3 舒适 双 床 房 中 各 出 行 类 别 的 评分 对 比 


























出 行 类 别 综合 评分 位 置 评分 服务 评分 设施 评分 卫生 评分 评论 数 
代 人 预订 5. 000 00 5. 0000 5. 0000 5. 0000 5. 0000 1 
其 他 3.750 00 4. 0000 3. 5000 3. 5000 4. 0000 2 
商务 出 差 4.548 76 4. 4215 4. 5124 4. 5124 4.7025 121 
情侣 出 游 4. 875 00 5. 0000 4.7500 4.7500 5. 0000 4 
家 庭 亲 子 4. 690 00 4. 6667 4. 6667 4. 6667 4.7333 30 
朋友 出 游 4.757 14 4. 8571 4. 5714 4. 5714 5. 0000 
独自 旅行 5. 000 00 5. 0000 5. 0000 5. 0000 5. 0000 4 
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表 8. 3 中 主流 人 群 为 商务 出 差 和 家 庭 亲子 两 类 人 群 ,情侣 出 游人 群 一 般 不 会 选择 双 床 
房 ,所 以 在 表 8. 3 中 只 有 4 条 评论 内 容 , 在 分 析 中 予以 剔除 ,图 8. 30 是 可 视 化 结果 。 
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综合 评分 位 置 评分 服务 评分 设施 评分 卫生 评分 
日 商务 出 差 和 @ 家 庭 亲 子 
图 8.30 每 适 双 床 房 中 不 同 出 行 类 别 评分 对 比 


从 图 8. 30 中 可 以 看 出 ,在 舒适 大 床 房 的 人 住人 群 中 ,商务 出 差 人 士 的 包括 综合 评分 在 
内 的 所 有 评分 都 较 低 ,说明 这 类 人 和 群 对 宾馆 的 各 方面 要 求 较 高 ,目前 A 商务 宾馆 并 没有 达 
到 其 要 求 , 只 是 符合 家 庭 出 游 类 人 群 的 要 求 层 次 ,后 文 将 分 析 家 庭 出 游人 群 其 实 是 酒店 人 住 
较 少 的 人 群 ,所 以 说 明 A 商务 宾馆 的 经 营 服务 水 平 尚 在 商务 型 酒店 的 初级 阶段 。 

以 箱 线 图 的 形式 显示 不 同房 型 的 评分 情况 ,如 图 8. 31 所 示 , 左 侧 是 箱 线 图 ,由 于 其 分 值 
的 分 布 可 能 是 较 少 的 评论 数 产 生 的 ,使 结果 有 较 大 误差 ,容易 产生 不 稳定 的 干扰 ,所 以 需要 
配合 二 维 点 图 一 起 分 析 , 右 侧 是 不 同房 型 的 二 维 点 图 ,表示 不 同房 型 的 情况 下 ,不同 评 分 值 
的 数据 分 布 情况 。 从 图 8. 31 中 可 以 看 出 ,温馨 家 庭 房 虽然 分 数 极 高 ,但 是 数据 条 数 却 极 少 ， 
最 终 其 结果 不 具有 参考 价值 。 

综 上 , 面 对 情 侣 出 游 和 商务 出 差 两 类 客人 时 ,需要 特别 注意 细节 ,提高 服务 水 平 , 必 
要 时 提供 客户 关怀 等 服务 。 另 外 需要 注意 的 是 ,房型 过 于 集中 在 极 少数 房型 中 ,导致 其 
区 分 度 不 高 ,不 利于 充分 利用 所 有 房型 ,容易 使 某 些 房型 空置 率 增 高 ,而 另外 的 房型 紧 
张 ,也 间接 说 明了 房间 设置 不 合理 ,没有 对 不 同人 群 匹配 不 同 的 房型 ,这 种 情况 下 也 难以 
实现 差异 化 服务 。 

3. 消费 者 决策 分 析 

对 消费 者 的 分 析 有 助 于 了 解 其 需求 并 制定 相应 营销 、 服 务 等 策略 ,包括 消费 者 画像 、 消 
费 特征 分 析 、 客 户 忠诚 度 分 析 等 。 

通过 对 评价 内 容 中 顾客 选择 的 出 行 类 别 分 析 , 获 取 基 本 的 用 户 画 像 数 据 , 将 对 不 同类 别 
的 入 住 客人 进行 评分 数值 进行 分 析 , 以 便 分 析 A 商务 宾馆 的 主要 适用 人 群 。 

1) 按 出 行 类 别 分 析 

按照 出 行 类 别 对 入 住 客人 进行 统计 , 表 8.4 列 出 了 不 同 的 出 行 类 别 对 应 的 评价 数量 和 
总 平均 分 情况 。 可 以 看 出 商务 出 差 人 群 是 A 商务 宾馆 的 主要 客户 群体 ,与 其 他 经 济 型 酒店 
基本 一 致 ,其 次 是 家 庭 亲子 群体 ,图 8. 32 是 对 数据 的 可 视 化 展示 ,可 以 直观 看 出 其 数量 对 比 
情况 。 








493 














数据 挖掘 实用 案例 分 析 











194, 











t t t Tt t 
大 床 房 全 全 间 舒适 双 床 房 温馨 家 庭 房 ”阳光 商 阳光 双 床 房 
大 床 房 
房间 类 型 ee 

















t t T t T t 
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图 8.31 按 房间 类 型 的 评分 情况 ,上 方 是 箱 图 ,下方 是 二 维 点 图 








表 8.4 出 行 类 别 对 应 数量 和 评分 


























出 行 类 别 总 平均 分 数 量 
代 人 预订 4. 833 33 9 
其 他 4. 100 00 10 
商务 出 差 4. 519 54 476 
家 庭 亲子 4.71176 68 
情侣 出 游 4. 462 50 40 
朋友 出 游 4. 700 00 39 
独自 旅行 4. 662 50 16 














代 人 预订 独自 旅行 家庭 亲子 朋友 出 游 其 他 情侣 出 游 商务 出 差 
出 行 类 别 





代 人 预订 独自 训 朋友 出 游 其 他 情侣 出 游 商务 出 差 
出 行 类 别 


图 8.32 不 同 出 行 类 别 对 应 的 入 住 数量 和 评分 情况 


由 于 代 人 预订 这 一 类 别 的 用 户 没有 真实 体验 ,只 是 听 被 代 订 人 员 的 评价 ,一 般 情况 下 会 
对 评价 有 一 定 的 美化 效果 ,并 且 其 评价 数量 只 有 9 条 ,不 具有 代表 性 , 暂 不 作为 分 析 依 据 ， 
“其 他 ”类 别 的 评论 数 较 少 ,也 不 作 分 析 。 在 其 余 各 类 出 行 类 别 中 ,商务 出 差 和 情侣 出 游 的 评 
分 最 低 , 家 庭 亲 子 类 别 的 评分 最 高 。 从 箱 图 中 可 以 看 出 商务 出 差 人 群 的 评分 范围 最 广 , 低 分 
区 间 明 显 低 于 其 余 各 类 别 . 二 维 点 图 (下 侧 ) 显 示 了 各 评分 人 群 的 数量 ,从 5.0 分 到 4.0 分 之 
间 并 非 依次 递减 的 顺序 ,而 是 打分 为 4. 0 分 的 仅 次 于 5. 0 分 ,说 明 在 商务 出 差 人 群 中 对 A 
商务 宾馆 的 整体 评价 较 低 。 
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原因 可 能 是 在 同样 情况 下 ,商务 出 差 和 情侣 人 士 对 细节 和 服务 水 平 要 求 更 高 ,其 满意 度 
较 低 也 符合 常理 ,但 商务 人 群 正 是 商务 酒店 的 主要 服务 人 群 ,如 果 不 能 在 此 类 用 户 中 产生 较 
好 的 满意 度 , 则 会 严重 影响 酒店 的 和 盈利。 另外 ,消费 者 中 家 庭 亲子 类 总 体 评 价 较 高 ,说 明 对 
这 类 人 和 群 而 言 , 宾 馆 的 定位 符合 其 预期 ,后 续 可 对 这 部 分 客人 重点 进行 推广 。 总之, 说明 A 
商务 宾馆 对 主要 的 客户 人 群 方面 .服务 方面 表现 不 尽 如 人 意 ,核心 竞争 力 较 差 。 

2) 不 同类 别 客人 的 评价 分 析 

按照 客人 在 评价 网 站 上 全 部 评论 条 数 对 客人 进行 分 类 ,点 评 数 超过 30 条 的 称 为 "点评 
专家 ”,5 一 29 条 是 “点 评 达 人 ”, 低 于 5 条 的 称 为 “点 评 新 星 ”, 点 评 数 量 越 多 说 明 入 住 酒店 次 
数 多 ,具有 较 多 的 人 住 经 历 ,评价 相对 更 加 客观 ,同时 对 酒店 的 各 方面 要 求 也 会 较 高 。 图 8. 33 
是 3 类 人 和 群 对 酒店 的 整体 评分 情况 。 
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点 a 点 点 评 达 人 点 评 新 星 
用 户 等 级 用 户 等 级 


点 评 新 星 


图 8.33 A 商务 宾馆 不 同等 级 客人 评分 情况 


从 图 8. 33 中 可 以 看 出 点 评 专家 和 点 评 达 人 对 酒店 的 评价 总 体 不 高 ,分 值 较为 分 散 ,并 
且 4.0 分 的 数量 明显 高 于 4.0 一 5.0 分 的 数量 ,而 点 评 新 星 对 A 商务 宾馆 的 评价 较 高 ,分 布 
也 较 集 中 ,4. 0 一 5. 0 的 分 数 分 布 情况 依次 递减 。 说 明 A 商务 宾馆 在 初次 人 住人 群 中 具有 较 
好 的 口碑 ,但 是 在 后 续 住 过 其 他 同类 酒店 之 后 ,经 过 比较 ,可 能 不 会 再 选择 和 人 住 ,意味 着 其 在 
红海 市 场 的 竞争 中 具有 一 定 的 弱势 。 

对 不 同 级 别 的 客人 选择 出 行 类 别 进行 交叉 分 析 , 如 图 8. 34 左 所 示 ,点 评 专家 绝 大 多 数 
为 商务 出 差 , 也 与 实际 相符 。 点 评 新 星 除 商务 出 差 外 , 较 多 为 家 庭 亲子 出 行 ,如 首次 外 出 旅 
游 。 点 评 达 人 也 与 之 类 似 , 只 是 在 家 庭 亲子 的 数量 上 较 少 。 图 8. 34 右 是 不 同 级 别 客人 对 房 
型 的 选择 情况 ,从 中 可 以 看 出 点 评 专家 类 商务 出 差 大 部 分 情况 是 入 住 舒 适 大 床 房 ,间接 说 明 
这 类 客人 一 般 为 单独 出 差 较 多 ,可 有 和 针对 性 推荐 相关 产品 或 服务 。 其 他 级 别 的 客人 与 点 评 
专家 基本 一 致 ,只 是 入 住 大 床 房 的 数量 略 多 一 些 ,说 明 其 他 两 类 人 群 对 价格 略微 敏感 。 

另外 也 可 以 看 出 在 不 同等 级 的 客人 之 间 ,房型 选择 上 趋 于 相同 ,间接 说 明 酒店 房型 设置 
上 存在 问题 ,因为 不 同 的 客人 对 人 住 需求 不 同 , 可 有 针对 性 地 提供 更 多 差异 化 服务 或 房型 进 
行 创新 。 

3) 客人 关注 点 

将 客人 提交 的 评论 进行 分 词 ,并 对 词 频 进行 计算 .去掉 类 似 “ 酒 店 ” 等 无 意义 词汇 ,按照 
问题 的 重复 数量 进行 排序 ,对 存在 的 问题 进行 比较 ,如 图 8. 35 所 示 。 
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图 8.34 A 商务 宾馆 不 同等 级 客人 出 行 类 别 和 房间 选择 情况 


评论 中 提出 的 主要 问题 


”上 | 
6 国 图 ~ 


早餐 味道” 难 找 隔音 网 络 
图 8.35 A 商务 宾馆 评论 中 提取 的 主要 问题 数量 对 比 


其 中 ,早餐 除了 难 吃 之 外 ,还 有 客人 评价 品种 太 少 。 在 所 有 评价 中 ,涉及 餐饮 的 达到 
122 条 , 占 总 评论 数 的 19% ,说 明 客 人 对 饭 食 的 关注 较 高 。 味 道 是 指 房间 中 有 装修 的 味道 ， 
难 找 是 指 酒店 位 置 在 导航 软件 中 不 易 查找 ,总 相关 条 数 达到 52 条 , 占 总 数 的 8%, 评 价 中 指 
出 隔音 较 差 17 条 , 占 总 评价 数 的 3%, 网 络 问 题 提出 数量 为 6 次 。 其 他 问题 还 包括 周边 配 
套 、 环 境 等 客观 因素 ,由 于 改进 能 力 有 限 .不 作 分 析 。 

4. 客户 忠诚 度 分 析 

用 户 的 复 购 率 反 映 了 其 对 品牌 的 忠诚 度 ,在 本 次 分 析 中 的 计算 方式 是 重复 和 人 住 ( 以 点 评 
为 准 ) 人 数 与 总 人 数 之 比 , 复 购 次 数 多 说 明 其 为 酒店 的 忠诚 会 员 。 表 8. 5 是 复 购 超过 2 次 
(大 于 2 次) 的 客户 列表 ,人 数 是 21 人 ,总 人 数 为 541 人 ,超级 复 购 人 群 占 比 为 3. 88%% ,比率 
较 低 ,说 明 非常 愿意 人 住 本 酒店 的 人 数 较 少 ,酒店 的 品牌 效应 不 明显 ,依然 没有 形成 自主 的 
客户 资源 。 

通过 查询 样本 数据 ,发 现 复 购 2 次 以 上 的 人 数 ( 包 括 2 次 ) 的 总 人 数 为 69 人 , 占 总 人 数 
的 比例 为 : 69 人 /541 人 二 12. 75% ,对 于 商务 型 酒店 来 说 ,这 样 的 复 购 比 率 说 明 回 头 客 较 
少 , 品 牌 的 忠诚 度 不 够 。 

B 酒 店 的 复 购 率 是 137 人 /886 人 二 15. 46% ,而 C 商务 宾馆 的 复 购 率 是 114 人 /845 人 = 
13. 49%, 另 外 两 家 酒店 的 复 购 率 均 超 过 A 商务 宾馆 ,说 明 A 商务 宾馆 在 客户 关怀 或 服务 方 
面 有 待 改 善 。 
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表 8.5 复 购 超 过 2 次 的 用 户 






































昵称 购买 数量 昵称 购买 数量 

118543 xxxx 3 past1231 12 
118639 xxxx 3 todaye 3 
288018 xxx 3 YC x 3 
300251 xxx# 4 ZC66 *xxx 8 
320041 xxxx 3 品味 人 生 4 
320516 xxx% 4 夜光 小 曲 4 
Aren861013 6 张 天 扬 2006 4 
E5360 xxx# 4 战神 甲骨 文 3 
M32817 xxx¥ 3 舒 妹 6 
M46774 xxx% 3 鞠 鸿 印 4 
M6925 xxxx 3 














8.5.4 客户 情感 分 析 


通过 对 A 商务 宾馆 客户 评论 内 容 进行 情感 分 析 , 得 到 顾客 对 酒店 各 方面 的 态度 和 情感 
倾向 ,获得 客户 更 加 关注 哪些 属性 ,从 而 建立 用 户 体 验 模型 ,形成 用 户 对 酒店 服务 各 方面 的 
关注 权重 ; 同时 ,对 于 酒店 比较 欠缺 的 方面 ,提出 针对 性 的 改进 建议 。 

希望 通过 对 用 户 评论 数据 的 分 析 ,挖掘 出 用 户 对 该 酒店 的 整体 情感 倾向 。 由 于 语言 
据 的 特殊 性 ,主要 是 将 一 篇 句子 中 的 关键 词 提取 出 来 ,从 而 将 一 个 评论 的 关键 词 也 提取 出 
来 ,然后 根据 关键 词 所 占 的 权重 ,应 用 空间 向 量 的 模型 ,将 每 个 特征 关键 词 转化 为 数字 向 量 ， 
通过 计算 其 距离 ,得 到 聚 类 ,从 而 得 到 情感 的 分 类 ,用 来 表示 客户 的 情感 倾向 。 

首先 将 原始 评论 数据 集中 的 评论 数据 单独 转 存 为 txt 文本 格式 ,然后 在 进行 分 词 之 前 ， 
先 对 数据 的 基本 情况 进行 审查 ,发现 评论 数据 具有 以 下 特点 : 

(1) 大 多 数 评论 数据 情感 倾向 比较 明显 ,涉及 情感 的 关键 词 比较 集中 。 

(2) 评论 数据 不 规范 ,存在 一 些 网 络 词 .表情 符号 等 。 

(3) 评论 数据 之 间 存 在 重复 的 现象 ,特别 是 单条 评论 中 往往 存在 一 些 重复 的 词语 ; 可 
能 是 用 户 评论 的 时 候 直接 复制 .粘贴 其 他 人 的 评论 内 容 。 

(4) 标点 符号 比较 多 。 

为 使 得 评论 数据 达到 符合 情感 分 析 的 标准 ,对 其 进行 三 级 清洗 : 一 级 清洗 (去 除 标 点 符 
号 ) .二 级 清洗 (去 除 重复 内 容 ) ,三 级 清洗 (去 除 停 用 词 .网络 用 词 等 )。 

在 信息 检索 中 ,为 节省 存储 空间 和 提高 搜索 效率 ,在 处 理 自然 语言 数据 (或 文本 ) 之 前 或 
之 后 会 自动 过 滤 掉 某 些 字 或 词 ,这 些 字 或 词 被 称 为 停 用 词 (Stop Words)。 对 这 些 停 用 词 需 
要 进行 必要 的 处 理 , 通 过 整合 现 有 的 停 用 词 库 ,包括 “百度 停 用 词 库 ”“ 哈 尔 滨 工业 大 学 停 用 
词 词 库 交 四 川 大 学 机 器 学 习 智 能 实验 室 停 用 词 库 ,形成 了 一 个 更 加 完善 的 停 用 词 词 库 , 其 
中 包含 1980 个 停 用 词 。 

一 句 话 中 出 现 的 重复 词汇 也 会 影响 到 一 个 评论 中 关键 词 在 整体 中 出 现 的 词 频 ,从 而 影 
响 整体 的 分 析 结 果 ,所 以 要 对 其 进行 压缩 。 

基于 情感 词典 的 方法 ,需要 用 到 标注 好 的 情感 词典 。 本 案例 中 ,直接 使 用 知 网 发 布 的 
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“情感 分 析 用 词语 集 ”, 使 用 武汉 大 学 开发 的 ROST CM6 作为 中 文 分 析 的 工具 ,分 词 之 前 如 
图 8. 36 所 示 。 


1 设施 还 不 错 ， 近 干净， 就 是 晚上 走 席 脚 步 声 太 多 ! 挺 棒 的 ! 高 高 铁 又 近 ， 就 是 早餐 太 晚 ， 赶 高 铁 都 吃 不 到 早餐 了 ! 
”房间 非常 干净 整洁 ， 宽 获 明 亮 ， 服务 也 很 好 ， 高 高 铁 站 很 近 ， 非 党 方便， 赠送 的 早餐 也 很 丰富 ， 推 荐 入 住 ! 

三 "不错 吹 吹 噢 ， 不 错 cp 的 ， 不 错 的 啊 - - - - - - 

二 高 火车 徐州 东 站 相当 的 近 啊 。 走 路 十 分 钟 啊 。 相 当 的 号 啊 . 棒 " 

二 ”干净 的 酒店 ， 出 门 就 是 高 铁 。 晚 上 和 要 点 楼 层 异 响 持续 半 小 时 ， 打 了 两 次 电话 才 解 决 ， 实 在 影响 睡眠 。 除 了 这 点 都 还 不 错 。 

互 ”房间 不 错 很 安静 ， 美 中 不 足 就 是 周边 吃饭 的 地 方太 少 了 ， 如 果 临 时 换 车 住 一 下 的 话 ， 还 是 不 错 的 选择 ， 人 性 价 比 超 高 值得 推荐 
了 高 徐州 东 站 非常 近 ， 走 几 分 钟 就 到 ， 室 内 打扫 挺 干净 的 ， 房 间 够 大 ， 比 较 宽敞 ， 卫 生 间 也 是 。 洗澡 很 舒服 。 早 餐 还 可 以 . 

豆 ”非常 好 的 商务 酒店 ， 绿 地 开发 的 房子 第 一 印象 就 不 错 ， 设 施 新 ， 干净， 环境 好 ， 就 在 高 铁 站 和 装 边 .绝对 好 评 

引 高 高 铁 站 近 ， 方 便 

名 ”吃饭 要 到 高 铁 吃 快 餐 ， 周 边 没有 饭店。 酒店 离 高 铁 也 就 三 四 百 米 远 . 

汪 ” 这 是 我 第 二 次 住 这 酒店 了 ， 高 铁 出 口 往 右 直行 富 过 高 架 桥 下 小 路 不 到 200 米 就 到 了 。 房 间 面积 大 ， 干 净 整 洁 ， 周 边 不 喧闹 。 所 
讨 非常 方便 ， 高 高 铁 站 很 近 ， 房 间 宽 向 整洁 。 标 间 还 有 1.5 米 的 两 个 床 ， 也 有 1.2 米 床 的 房间 。 来 回 住 了 两 晚 。 下 次 还 会 再 去 住 
13 Hyg 设施 齐全 ， 房 间 大 ， 更 重要 的 是 服务 员 热情 。 早餐 我 们 过 点 了 ， 还 热心 地 帮 我 们 热 早 餐 。 

和 3 

汪 ” 挺 干净 ， 房 间 也 不 错 

四 ”只 有 早餐 ， 其 他 都 完美 

凶 ” 房 间 不 错 ， 高 铁 站 边 上 ， 客 服 人 员 非 常 热情 ， 微 笑 服务 ， 感 觉 很 温 苑 .就 是 夏天 的 被 子 太 厚 了 。 

如” 周边 配套 设施 还 有 待 完 善 :酒店 不 太 好 找 ， 

和 天， 高 火车 站 步行 15 分 钟 时 间 ， 房 间 中 规 中 和 矩 ， 空 调 直 吹 身上 有 点 受 不 了 

2 中 ”房间 很 干净 ， 装 修 也 不 错 

各 ”高 高铁 站 很 近 ， 坐 车 方便 。 卫生 环 境 以 及 设备 也 都 摆好 ， 服 务 态度 也 不 错 。 洗 发 水 洗 发 液 都 是 一 小 瓶 ， 有 点 少 ， 还 缺少 个 吹 
于 ”三 张 床 放 着 也 不 觉得 挤 ， 室 内 简洁 干净 ， 非 常 不 错 - 

强 ”环境 很 好 ， 下 次 继续 入 住 

如 ” 环 境 优雅 ， 视 野 开阔 ， 房 间 又 大 又 干净 ， 下 次 一 定 还 要 入 住 

如 “酒店 硬件 设施 很 好 ， 房 间 大 ， 干净 卫生 ， 无 线 比较 快 ， 赶 火车 没有 吃 早餐 ， 离 徐州 东 站 很 近 ， 步 行 五 分 钟 ， 赶 车 方便 。 

2 引 ”进去 一 定 要 注意 台阶 ! 其 余 都 ok 高 铁 很 近 ， 价 格 也 可 以 接受 

宫 ” 环 境 不 错 。 不错 不 错 的 。 





图 8.36 原始 数据 集 


经 过 分 词 处 理 之 后 的 结果 数据 集 如 图 8. 37 所 示 ,部 分 词语 被 强制 分 开 , 如 *“ 异 响 ” 等 ,为 
此 使 用 自 定义 词 表 ,使 这 类 词汇 不 作 分 词 。 


1 设施 还 不 错 ， 挺 干净 ， 就 是 晚上 走 雇 脚步 声 太 多 ! 挺 棒 的 
名 房间 非常 干净 整洁 ， 宽 向 明亮 ， 服务 也 很 好 ， 离 高 铁 站 很 
本 "不错 吹 吹 噢 ， 不错 up 的 ， 不 错 的 啊 . . 。 - 

寺 高 火车 徐州 东 站 相当 的 近 啊 。 走路 十 分 钟 啊 . 的 号 
本 干净 的 酒店 ， 出 门 就 是 高 铁 。 晚上 圭 点 楼 层 异 响 持续 半 小 
下 房间 不 错 很 安静 ， 美中不足 就 是 周边 吃饭 的 地 方太 少 了 ， 
了 高 徐州 东 站 非常 近 ， 走 几 分 钟 就 到 。 室内 打 : 的 
各 非常 好 的 商务 酒店 ， 绿地 开发 的 房子 第 一 印象 设 
可 高 高 铁 站 近 ， 方便 

负 ” 吃饭 要 到 高 铁 吃 快餐 ， 周边 没有 饭店 。 酒店 离 
各 这 是 我 第 二 次 住 这 酒店 了 ， 高 铁 出 口 往 右 直 
名 非常 方便 ， 离 高 铁 站 很 近 ， 房间 宽 向 整洁 。 标 间 
到 酒店 干净 ， 设施 齐全 ， 房间 大 ， 更 重要 的 是 服务 
5 真 的 不 错 ? 





热情 ， 微笑 服务 ， 感觉 很 温 贡 。 就 是 夏天 的 被 子 太 厚 了 
， 空调 直 吹 身上 有 点 受 不 了 


规 中 答 
到 “房间 很 干净 ， 装修 也 不 错 
铁 站 很 近 ， 坐车 方便 。 卫生 环境 以 及 设备 也 都 挺 好 ， 服务 态度 也 不错 。 洗 发 水 洗 发 液 都 是 


环境 优雅 ， 视野 开阔 ， 房间 又 大 又 干净 ， 下 次 一 定 还 要 入 住 

2 酒店 硬件 设施 很 好 ， 房间 大 ， 干 净 卫生 ， 无 线 比较 快 ， 赶 火车 没有 吃 早餐 ， 离 徐州 东 站 很 近 ， 
26 进去 一 定 要 注意 台阶 ! 其 余 都 ok 高 铁 很 近 ， 价格 也 可 以 接受 

如 环境 不 错 。 不 错 不 错 的 。 

2 房间 比较 大 ， 设 施 较 新 ， 高 高 铁 站 很 近 ， 就 是 一 进 屋子 很 大 味道 


图 8. 37 经 过 分 词 处 理 之 后 的 结果 数据 集 


为 确定 用 户 评论 数据 集中 包含 的 情感 类 型 ,采用 聚 类 对 其 进行 分 析 , 分 别 尝试 了 分 为 
3 类 和 4 类 的 聚 类 ,最 终 发 现 分 为 3 类 的 情绪 更 加 合理 ,于 是 将 用 户 评论 数据 中 表现 出 的 情 
绪 分 为 积极 情绪 、 中 性 情绪 、 消 极 情绪 三 类 。 

基于 上 面 的 分 析 , 使 用 武汉 大 学 开发 的 ROST CM6 对 用 户 的 评论 数据 进行 情感 分 析 ， 
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发 现 用 户 的 情感 倾向 见 表 8. 6。 
表 8.6 情感 分 析 占 比 表格 


























情绪 倾向 情绪 得 分 评论 条 数 百分比 
一 般 (0 一 10) 314 46. 87% 

积极 情绪 中 度 (10~20) 173 25. 82% 
高 度 (20 以 上 ) 56 8.36% 

中 性 情绪 =P 102 15.22% 
一 般 ( 一 10 一 0) 21 3.13% 

消极 情绪 中 度 (一 20~10) 和 0.45% 
高 度 ( 一 20 以 下 ) 1 0.15% 














从 上 面 的 分 析 可 知 ,对 该 酒店 整体 情况 持 积极 态度 的 占 比 大 约 是 81. 04%, 持 中 立 态 度 
的 用 户 占 比 为 15. 22%% , 持 消极 态度 的 用 户 占 比 3.73%。 其 中 , 持 积 极 态 度 和 中 立 态度 的 用 
户 总 体 占 比 为 96. 27% ,和 网 站 提供 的 数据 97% 非 常 接近 ,如 图 8. 38 所 示 。 
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图 8.38 网 站 对 A 商务 酒店 的 分 析 数 据 


除了 得 到 用 户 评论 中 的 情感 倾向 之 外 ,还 希望 了 解 每 类 用 户 在 表达 情感 的 同时 所 关注 
的 因素 ,无 论 是 酒店 房间 .地 理 位 置 .卫生 ,还 是 服务 .餐饮 等 方面 ,希望 通过 挖掘 持 有 正面 态 
度 的 用 户 关注 的 因素 找到 酒店 当前 做 得 比较 好 的 地 方 ,以 便 后 续 在 这 些 方面 进一步 加 强 , 形 
成 自己 的 招牌 特征 ; 同时 希望 通过 挖掘 持 有 中 立 态度 的 用 户 关注 的 因素 得 到 酒店 为 了 在 未 
来 吸引 更 多 的 用 户 所 需要 改进 加 强 的 地 方 ; 最 后 ,希望 对 剩 下 少 部 分 持 有 负面 情感 的 用 户 
关注 的 因素 进行 仔细 分 析 , 希 望 发 现 他 们 对 酒店 的 不 满意 之 处 。 

首先 对 分 词 处 理 后 的 用 户 评论 数据 进行 词 频 统 计 , 得 到 如 图 8. 39 所 示 的 情况 。 

将 “ 东 站 ”高 铁 站 ”等 词 去 掉 后 ,借助 标签 云 对 该 部 分 的 统计 结果 进行 可 视 化 呈现 ,如 
图 8. 40 所 示 。 

通过 对 用 户 评论 的 整体 分 析 发 现 ,该 酒店 的 客户 比较 关注 的 方面 有 : 方便 .早餐 .环境 、 
干净 .设施 以 及 服务 等 。 结 合 前 面 对 该 酒店 的 基本 分 析 , 也 可 以 发 现 该 酒店 位 于 高 铁 站 附 
近 , 有 非常 大 的 地 理 优势 ,方便 了 很 多 出 行 的 客户 。 同 时 ,其 环境 和 服务 业 较 好 ,性 价 比较 
高 ,是 旅游 出 行 非常 好 的 选择 。 

1. 正面 情感 用 户 分 析 

对 上 一 步 情感 分 析 得 到 的 正面 情感 用 户 的 评论 数据 集 进 行进 一 步 分 析 , 首 先 通过 分 词 、 
词 频 统计 得 到 如 图 8. 41 所 示 的 词 频 分 布 情况 ,其 中 ,“ 高 铁 站 ”“ 东 站 ”等 停 用 词 已 经 去 掉 。 







































































高 铁 站 119 | 周边 24 人员 15 | 选择 10 | 唯一 7 | 被 子 5 | 大 楼 5 
方便 《113| 吃 饭 24 | 出 差 15 | 安全 10 | 标志 7 | 楼 下 5 | 沙发 5 
干净 ”102| 高 铁 23 | 总 体 15 合 10 | 高 层 7 | 招牌 5 | 第 一 次 5 
环境 84 | 交通 23 | 值得 15 | 二 次 10 | 百 米 6 | 免费 5 | 首选 5 
设施 ”76 | 整洁 ”22 服务员 13 | 配套 9 | 高 铁 很 6 | 面积 5 | 品种 5 
早餐 70 | 味道 22 | 晚 F 13 | 满意 9 | 整体 6 | 周到 5 | 开阔 5 
服务 59 | 距离 21 | 旁边 12 | 周围 9 | 好 几 6 | 建议 5 IAD 4 
徐州 52 | 每 服 20 | 出 行 12 | 绿地 9 | 相当 6 | 家 庭 5 | 大 厅 4 
入 住 49 | 宽 籼 ”20 | 空调 12 | 卫生 间 9 | 也 就 6 | 刷卡 5 | 硬件 4 
卫生 48 | 还 行 19 | 热情 12 | 效果 8 | 条 件 6 | 声音 5 | 开心 4 
东 站 45 | 好 找 18 | 舒适 11 | 快捷 8 | 牌子 6 | 接待 5 | 早饭 4 
性 价 比 40 | 隔音 18 | 难 找 11 | 商务 8 | 小 时 6 | 高 的 5 | 集团 4 
下 次 35 | 火车 站 17 | 视野 11 | 时 间 7 | 超级 6 | 还 要 5 | 位 于 4 
分 钟 35 | 态度 17 | 齐全 11 | 这 家 7 | 五 分 6 | 完 5 | 稍微 ”4 
位 置 34 | 附近 17 | 火车 11 | 便利 7 | 朋友 6 | 当地 5 | 办 理 4 
前 台 33 | 地 方 16 | 早上 10 | 地 理 7 | 预定 6 | 种 类 5 | 明显 4 
步行 ”26 | 车 站 16 | 宾馆 10 | 新 开 7 | 手边 6 | 高 铁 近 5 | 赶 早 4 
安静 26 || 找 到 15 | 走路 10 | 实惠 7 || 打 电话 5 | 超市 5 | 坐车 4 
装修 24 || 边 上 15 | 简单 10 | 淋浴 7 | 楼 层 5 | 便宜 5 | 接受 4 
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性 全 


地 级 手边 地 外 地 和 由 
图 8.40 分 词 后 可 视 化 呈现 


通过 对 上 述 词 频 统计 结果 进行 可 视 化 ,得 到 如 图 8. 42 所 示 的 标签 云 , 可 以 看 出 持 有 正 
面 情感 的 用 户 比 较 关注 的 因素 主要 是 干净 方便、 设施、 环境 .早餐 ,性价比 .卫生 情况 位置、 
交通 、 周 边 等 。 

这 部 分 因素 与 整体 上 客户 关心 的 因素 基本 上 一 致 ,是 吸引 消费 者 的 因素 ,建议 该 酒店 在 
后 续 的 发 展 中 要 不 断 加 强 这 些 因素 的 竞争 力 ,形成 自己 的 特色 ,为 更 多 的 消费 者 提供 更 方 
便 、 更 优质 的 服务 。 
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数据 挖掘 实用 案例 分 析 
干净 94 | 装修 18 | 出 行 11 | 唯一 6 | 被 了 5 | 品种 5 | 简单 4 
环境 ?77 | 宽 若 18 | 晚 F 11 | 配套 6 | 免费 5 | 商务 5 | 简洁 4 
设施 71 | 舒服 15 | 适合 10 | 牌子 6 | 超级 5 | 门口 4 | 市 区 4 
方便 ”61 | 隔音 15 | 空调 10 | 五 分 6 | 周到 5 | 大 楼 4 | 二 七 4 
早餐 ”59 | 值得 15 | 周围 9 | 好 几 6 | 地 理 5 | 大 厅 4 | 高 铁 的 4 
服务 54 | 态度 14 | 绿地 9 | 也 就 6 | 家 庭 5 | 阿姨 4 | 高 楼 4 
卫生 47 | 车 站 14 | 二 次 8 | 实惠 6 | 淋浴 5 | 超市 4 | 高 的 4 
性 价 比 37 | 总 体 14 | 火车 8 | 标志 6 | 当地 5 | 位 于 4 | 感谢 4 
前 台 32 | 好 找 14 | 早上 8 | 高 铁 很 6 | 还 要 5 | 打 电 话 4 | 热 水 4 
入 住 32 | 人 员 13 | 难 找 8 | 这 家 6 | 开阔 5 | 稍微 ”4 | 银杏 树 4 
下 次 30 | 出 差 13 | 安全 8 | 高 层 6 | 相当 5 | 饭店 4 | 再 次 4 
位 置 30 | 味道 13 | 卫生 间 8 | 条 件 6 | 整体 5 | 办 理 4 | 集团 4 
步行 23 | 附近 13 | 快捷 8 | 手边 6 | 面积 5 | 招牌 4 | 马路 4 
周边 23 | 找到 13 | 走路 8 | 百 米 6 | 接待 5 | 小 时 4 | 发 票 4 
安静 21 | 边 L 12 | 地 方 8 | 便利 6 | 舒适 5 | 赶 早 4 | 洗澡 4 
整洁 ”21 | 服务 员 12 | 齐全 8 | 效果 6 | 选择 5 | 心情 4 | 有 待 4 
吃饭 21 | 视野 11 | 宾馆 8 | 时 间 6 | 朋友 5 | 醒目 4 | 高 铁 近 4 
交通 20 | 旁边 11 | 还 行 7 | 楼 下 5 | 沙发 5 | 影响 4 | 早饭 4 
距离 18 | 热情 ”11 | 新 开 7 | 第 一 次 5 | 楼 层 5 | 建议 4 | 种 类 4 








图 8.41 正面 情感 分 词 后 统计 结果 





图 8.42 正面 情感 分 词 后 可 视 化 结果 


2. 中 立 情感 用 户 分 析 

通过 对 情感 分 析 阶 段 得 到 的 中 立 情感 用 户 评论 数据 进一步 分 词 .统计 词 频 分 布 ,得 到 如 
8. 43 所 示 的 词 频 分 布 情况 。 

进一步 使 用 标签 云 的 方式 对 统计 分 析 结果 进行 可 视 化 ,结果 如 图 8. 44 所 示 。 

从 可 视 化 标签 云 的 呈现 结果 可 以 看 出 : 对 于 持 中 立 态 度 的 用 户 而 言 , 他 们 关注 的 情况 
主要 在 于 酒店 的 方便 性 酒店 附近 的 交通 情况 .周围 环境 .早餐 质量 房间 装修 情况 .吃饭 等 。 
由 此 可 见 ,该 酒店 后 续 有 待 进一步 提升 的 服务 包括 早餐 的 口味 、 房 间 的 装修 情况 ,特别 是 有 
































































方便 6 | 出 差 2 

还 行 6 | 淋浴 2 

环境 5 | 边 E 2 

装修 4 | 车 站 2 

早餐 4 | 距离 2 

附近 3 | 简单 2 

位 置 3 | 甲醛 2 

分 钟 3 | 火车 2 

交通 3 | 地 理 2 

预定 3 | 便宜 2 

设施 3 | 地 方 2 

下 次 3 | 商务 2 

气味 3 | 种 类 1 

步行 3 | 超标 1 

吃饭 3 | 整体 1 

味道 3 | 空调 1 

性 价 比 2 | 郊区 1 

姑姑 2 | 硬件 1 

走路 2 | 过 道 1 
图 8.43 ”中 立 情 感 分 词 后 统计 结果 
和 
性 价 比 多 2 
内 : 装修 区 呈 训 分 和 





2 火车 
四 :交通 时 上 论 侯 
无 标 过 道 

中 和 





受 普 通 不 由 
图 8. 44 ”中 立 情感 分 词 后 可 视 化 结果 
的 用 户 在 评论 中 指出 该 酒店 的 早餐 有 点 不 合 口味 。 另 外 ,房间 由 于 装修 存在 甲醛 味道 ,这 都 
是 该 酒店 在 后 续 的 经 营 过 程 中 需要 改进 的 地 方 。 
3. 负面 情感 用 户 分 析 


通过 对 持 有 负面 情感 的 用 户 的 评论 数据 的 分 析 , 得 到 如 图 8. 45 所 示 的 词 频 分 布 情况 ， 
从 中 可 以 看 出 早餐 问题 .服务 态度 .宾馆 位 置 难 找 等 问题 较 突出 。 





































































































数据 挖掘 实用 案例 分 析 
早餐 4 分钟 1 | 特意 1 | 进攻 性 1 | 查验 1 | 入 口 1 | 某 某 1 
入 住 4 | 完成 1 | 明明 1 | 效果 1 | 测试 1 | 大 堂 1 | 连接 1 
态度 3 | 不 像 1 | 明显 1 | 位 置 1 | 环境 1 | 大 不 1 | 单据 1 
难 找 3 | 老板 1 | 宾馆 1 | 翻 翻 1 | 楼 道 1 | 卡 住 1 | 主管 1 
服务 2 后悔 1 | 设施 1 | 操作 1 | 骗 人 人 1 | 品目 1 1- 同 1 
配套 2 | 降温 1 | 招牌 1 | 周边 1 | 素质 1 | 打 电话 1 | 齐全 1 
实在 2 | 结账 1 | 银行 1 | 还 行 1 | 夜里 1 | 有 问题 1 | 商务 1 
刷卡 2 | 这 家 1 | 银杏 1 | 还 给 1 | 浴巾 1 | 果真 1 | 跟头 1 
员工 2 | 遇 到 1 | 刚刚 ”1 | 这 次 1 | 停机 1 | 小 时 1 | 紧张 1 
地 方 2 | 隔音 1 | 提示 1 | 早上 1 | 停 水 1 | 朋友 1 | 开车 1 
昕 到 2 | 隔壁 1 | 所 在 1 | 发 给 1 | 下 车 1 | 二 从 1 
装修 2 | 靠边 1 | 电视 1 | 发 发 1 | 说 不 1 | 规模 1 
下 次 2 | 性 价 比 1 | 服务 员 1 | 洗脸 1 | 师傅 1 | 失误 1 
人 员 2 | 超级 1 | 不 了 了 1 | 记得 1 |=+ 1 | 客房 1 
完 7 2 Ew 1 jm 吧 车 1 |#r 1 |=w 1 ww 1 
房 时 2 | 沟通 1 | 方法 1 | 太太 1 | 浓重 1 的 品 1 
晚 2 | 空调 1 | 包子 1 | 前 台 1 | 和 稀 1 | 车 库 1 
滚滚 2 | 差劲 1 | 别 来 1 | 无 奈 1 | 满意 1 | 火车 1 
千 万 1 人 旅馆 1 | 干净 1 | 说 白 工人 忙活 1 | 七 点 









































图 8.45 负面 情感 分 词 后 统计 结果 


通过 标签 云 的 方式 可 视 化 ,得 到 图 8. 46 所 示 的 结果 。 持 有 负面 情感 的 用 户 关注 更 多 的 
是 酒店 的 房间 、 早 餐 情况 、 服 务 等 ,并 且 有 用 户 还 指出 酒店 难 找 ,可 能 是 该 酒店 没有 设置 明显 
的 指示 牌 ,导致 部 分 用 户 难 以 找到 酒店 ; 另外 ,还 有 部 分 用 户 说 该 酒店 的 装修 情况 影响 到 其 
居住 感受 ,结合 中 立 用 户 的 评论 情况 ,该 酒店 可 能 最 近 新 装修 ,所 以 有 部 分 用 户 反映 房间 中 
依旧 存在 甲醛 味道 ,所 以 这 一 点 酒店 要 注意 改进 。 
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图 8.46 负面 情感 分 词 后 可 视 化 结果 


在 负面 情绪 中 指出 的 装修 甲醛 问题 ,酒店 应 该 给 予 充 分 的 重视 。 倘 若 真 的 存在 新 装修 
空气 不 好 的 问题 ,势必 会 对 客 源 造 成 极 大 的 冲击 。 因 此 ,酒店 应 该 及 时 检测 空气 质量 ,保证 





客 源 不 会 受到 影响 。 

为 了 更 加 直观 地 展示 各 关键 词 标 签 之 间 的 关联 关系 ,以 话题 的 方式 显示 用 户 关注 问题 ， 
对 情感 分 词 后 的 结果 进行 网 络 语义 分 析 , 使 用 RostCM 内 集成 的 NetDraw 软件 构建 语义 网 
络 , 其 构建 过 程 是 将 分 词 后 的 结果 文件 生成 高 频 词 表 , 并 将 词 表 进行 过 滤 , 将 无 意义 词汇 滤 
除 ,得 到 过 滤 后 的 结果 表 ; 接着 进行 特征 提取 ,获得 行 特征 词 表 ; 最 后 通过 对 高 频 词 进行 共 
现 分 析 得 到 共 现 矩阵 ,将 其 输入 到 NetDraw 软件 中 绘制 语义 网 络 ,结果 如 图 8. 47 所 示 。 
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图 8.47 用 户 关注 焦点 语义 网 络 


从 有 向 图 网 络 可 以 看 到 其 中 各 分 词 结果 之 间 的 关联 关系 。 通 过 分 析 关 键 节 点 的 连接 数 
量 和 方向 ,从 中 分 析出 酒店 评价 结果 相关 的 主要 影响 因素 及 其 之 间 的 关系 。 

从 图 8. 47 中 可 以 看 出 位 置 (高 铁 站 )、 设 施 、 方 便 . 性 价 比 .早餐 .服务 等 连接 数 较 多 ,并 
且 均 为 被 指向 的 方向 ,说 明 这 几 个 因素 是 影响 酒店 评价 的 重要 因素 。 除 此 之 外 的 附近 、 找 
到 ,味道 等 也 可 以 侧面 看 出 它们 对 酒店 的 评价 产生 了 部 分 负面 影响 。 外 围 节 点 中 显示 的 是 
对 核心 影响 因素 的 修饰 ,如 “交通 是“ 方便” 的,“ 早餐" 是 (不 敢 )* 蔡 维 ” 的 ,“ 装 修 ”" 是 有 “ 味 
道 ” 的 等 ,建议 后 续 将 此 节点 中 具有 较 多 连 入 关系 的 影响 因素 点 进行 相应 的 干预 ,使 其 优点 
得 到 加 强 ,缺点 得 到 改进 ,逐渐 增加 较 高 评价 因素 的 节点 ,减少 负面 评价 的 节点 数 。 


8.5.5 竞争 分 析 


虽然 A 商务 宾馆 附近 存在 数 十 所 同样 价位 的 商务 宾馆 ,由 于 差异 化 不 明显 ,竞争 者 都 
采用 相同 的 经 营 管理 模式 , 随 着 宾馆 数量 越 来 越 多 , 店 均 客 源 逐 渐 减 少 ,对 A 商务 宾馆 的 经 
营 产生 较 大 影响 ,A 商务 宾馆 要 想 在 竞争 中 立 于 不 败 之 地 ,不 仅 需要 了 解 自己 存在 的 问题 ， 
更 要 对 比分 析 其 竞争 优势 和 客 源 吸引 能 力 ,使 酒店 在 经 营 过 程 中 知己 知 彼 , 最 终 在 竞争 中 逐 
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渐 胜 出 。 

选取 A 商务 宾馆 周边 的 商务 宾馆 和 星 级 酒店 作为 竞争 对 手 进行 竞争 力 分 析 , 它 们 分 别 
是 : D 商务 酒店 .B 酒店 .C 商务 宾馆 ,其 中 B 酒店 的 定位 是 星 级 酒店 ,定位 略 有 不 同 ,其 余 
两 家 为 经 济 型 商务 酒店 ,为 直接 竞争 对 手 , 从 点 评 网 站 上 抓 取 了 上 述 各 家 酒店 的 评论 数据 进 
行 对 比分 析 。 

1. 客户 评分 对 比 

网 站 上 的 酒店 评分 是 客人 进行 实际 消费 之 后 打 的 分 数 ,相对 较 客观 ,对 于 未 住 过 此 酒店 
的 客人 来 说 ,具有 较 强 的 决策 影响 作用 ,是 酒店 实力 和 竞争 力 的 一 种 体现 。 通 过 对 各 商务 酒 
店 的 综合 评分 和 各 分 项 评分 进行 比较 ,可 得 出 其 基本 的 竞争 力 情况 。 

2. 综合 评分 比较 


获取 了 网 站 疏 虫 数据 后 ,将 4 家 对 比 酒店 的 综合 点 评 平均 得 分 进行 了 对 比 ,结果 如 
图 8. 48 所 示 。 








酒店 综合 点 评 平均 得 分 
6.00 ja 
5.00 : 2 
5 10 下 ;2 3 
3.00 YS 
2.00 YH 
1.00 NN 
0.00 SS 2 
平均 点 评 得 分 
里 A 商 务 宾馆 日 D 酒 店 
B 酒 店 C 商 务 宾馆 


图 8.48 酒店 综合 评分 分 布 


图 8. 48 显示 ,在 平均 点 评 得 分 上 ,排名 第 一 的 是 BB 酒店 ,其 次 是 A 商务 宾馆 ,第 三 名 是 
C 商务 宾馆 ,最 后 是 D 商务 酒店 。B 酒店 定位 偏 高 端 ,在 评分 上 远 超过 其 余 3 家 。A 商务 宾 
馆 在 整体 上 处 于 第 二 的 位 置 , 说 明 其 具备 一 定 的 竞争 优势 。 

3. 分 项 评分 比较 

接 下 来 对 4 项 基本 点 评 得 分 进行 讨论 分 析 , 首 先 给 出 地 理 位 置 这 一 项 的 平均 得 分 ,如 
图 8. 49 所 示 。 

可 以 看 到 ,地 理 位 置 评分 分 布 与 整体 综合 评分 分 布 排序 一 致 ,但 是 值得 注意 的 是 ,A 商 
务 宾馆 相对 于 其 余 两 家 商务 宾馆 的 优势 显得 比较 明显 。 也 就 是 说 ,在 地 理 位 置 方 面 ,A 商 
务 宾馆 的 优势 比较 明显 , 仅 次 于 B 酒店 这 家 星 级 酒店 。 

接 下 来 对 设施 项 进行 评分 分 析 , 结 果 如 图 8. 50 所 示 。 

B 酒 店 作为 星 级 酒店 ,其 在 设施 上 碾 压 其余 3 家 商务 宾馆 无 可 置疑 。A 商务 宾馆 依然 
是 其 余 3 家 商务 酒店 中 得 分 最 高 的 一 家 。 不 过 ,相对 于 上 述评 分 ,其 与 C 商务 宾馆 的 分 差 
被 拉 小 ,说 明 虽 然 A 商务 宾馆 处 于 领先 ,不 过 优势 不 大 ,应 该 注意 及 时 更 新 维护 设备 ,从 而 
能 够 获得 更 好 的 竞争 优势 。 服 务 点 评 平均 服务 得 分 如 图 8. 51 所 示 。 
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图 8.51 酒店 服务 评分 分 布 


本 项 结果 中 规 中 矩 ,排序 也 与 上 面 两 项 相同 。A 商务 宾馆 同样 相对 于 其 余 两 家 商务 宾 
馆 具 备 竞争 优势 ,但 与 C 商务 宾馆 相差 不 大 ,应 该 及 时 提升 服务 质量 ,从 而 获得 更 好 的 竞争 
卫生 点 评 平 均 得 分 如 图 8. 52 所 示 。 本 项 结果 排序 也 与 上 面 3 项 相同 。A 商务 宾馆 同 
样 相对 于 其 余 两 家 商务 宾馆 具备 竞争 优势 ,不 过 与 C 商务 宾馆 相差 再 次 缩小 。 而 B 酒店 
4.93 的 分 数 甩 开 了 其 余 3 家 商务 宾馆 很 大 的 距离 。 对 A 商务 宾馆 而 言 ,目前 竞争 最 大 的 是 
C 商务 宾馆 ,应 该 及 时 提升 卫生 质量 ,从 而 获得 更 好 的 竞争 优势 。 
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晶 A 商 务 宾馆 D 酒 店 
田 B 酒 店 C 商 务 宾馆 
图 8.52 酒店 卫生 评分 分 布 


4. 客户 吸引 力 对 比 

在 本 案例 中 , 某 一 客人 可 能 在 不 同 的 时 间 入 住 过 不 同 的 酒店 ,我 们 将 这 部 分 客人 的 评论 
数据 提取 出 来 ,用 于 对 比 其 对 各 家 商务 酒店 的 评分 ,并 依据 入 住 时 间 ( 评 论 提 交 时 间 ) 对 用 户 
的 行为 进行 跟踪 ,用 于 对 比 酒店 对 客户 的 吸引 力 。 为 了 得 到 更 多 的 客人 比较 样本 ,在 本 节 中 
使 用 抓 取 的 全 部 评论 数据 , 即 不 对 评论 数据 进行 随机 化 删除 。 

1) A 商务 宾馆 与 了 酒店 比较 

A 商务 宾馆 与 周边 其 他 酒店 的 竞争 比较 ,通过 与 B 酒店 `C 宾馆 对 比 相同 客户 对 不 同 酒 
店 的 评价 实现 , 见 表 8.7。 


表 8.7 相同 客户 对 不 同 酒店 评分 对 比 















































客户 昵称 A 商 务 宾馆 评价 时 间 | A 商务 宾馆 评分 | B 酒店 评分 时 间 | B 酒店 评分 
_CFT010000001287 xxxx 2016-08-04 4.8 2016-09-06 5.0 
Pcly80 xxx% 2016-11-16 4.0 2016-12-10 5.0 
203798 xxxx 2016-03-27 3.5 2016-10-26 4.8 
203798 xxxx 2016-03-27 3.5 2016-12-07 LN 
320027 xxx% 2016-09-29 5.0 2016-11-19 5.0 
205268 xxxx 2015-11-21 5.0 2016-07-10 5.0 
205268 xxxx 2015-11-17 5.0 2016-07-10 5.0 
118843 xxxx 2016-10-07 4.3 2016-10-27 5.0 
118843 xxxx 2016-10-03 4.0 2016-10-27 5.0 
231218 xxxx 2016-02-16 5.0 2016-08-17 5.0 
203798 xxxx 2016-03-27 3.5 2016-10-26 4.8 
203798 xxxx 2016-03-27 3.5 2016-09-23 5.0 
203798 xxxx 2016-03-27 3.5 2016-12-07 5.0 
203798 xxxx 2016-03-27 3.5 2016-12-07 5.0 
203798 xxxx 2016-03-27 3.5 2016-09-23 5.0 

















从 表 8. 7 和 图 8. 53 中 可 以 看 到 A 商务 宾馆 的 用 户 大 部 分 都 是 入 住 之 后 评分 不 高 , 然 
后 流失 到 B 酒店 的 ,说 明 在 与 B 酒 店 的 竞争 中 ,A 商务 宾馆 竞争 力 较 差 ,并 且 查 看 到 评分 的 


第 8 章 商务 宾馆 竞争 分 析 全 





时 间 先 后 顺序 ,都 是 在 先 住 了 A 商务 宾馆 之 后 ,发现 服务 各 方面 不 满意 之 后 才 选 择 B 酒店 ， 
虽然 两 者 的 客户 群体 定位 不 同 , 但 是 因为 酒店 中 房型 有 交叉 , 即 客户 群体 大 致 相同 ,综合 说 
明 A 商务 宾馆 在 与 B 酒 店 的 竞争 中 处 于 明显 劣势 ,并 存在 较 高 的 客户 流失 风险 。 


相同 顾客 不 同 酒店 评分 对 比 
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四 A 商 务 宾馆 评分 mB 酒店 评分 
8.53 相同 客人 给 A 商务 宾馆 与 B 酒店 评 分 比较 


图 8. 53 中 除了 少数 客人 的 评分 同 为 5 分 之 外 ,其 他 客人 的 评分 中 全 部 选择 B 酒店 为 高 
评分 ,并 且 分 差 较 大 ,从 目前 抓 取 的 评论 数据 中 看 ,此 类 客人 数 较 少 ,只 占 总 评论 数 的 2.2%, 但 
在 这 部 分 客人 中 ,除了 4 人 给 出 相同 的 5. 0 分 外 ,其 他 的 人 100% 选 择 了 B 酒店, 可 能 是 双 
方 客人 存在 差异 化 ,或 者 目前 并 未 进入 直接 竞争 阶段 ,虽然 如 此 ,A 酒店 仍 需 要 提前 规划 ， 
进行 风险 防范 。 

2) A 商务 宾馆 与 C 宾馆 比较 

C 商务 宾馆 在 3 家 商务 经 济 型 酒店 中 评价 相对 较 高 ,以 其 作为 代表 与 A 商务 宾馆 进行 
比较 。 表 8. 8 是 A 商务 宾馆 与 C 商务 宾馆 评分 对 比 ,从 中 可 以 看 到 客人 同时 在 两 家 酒店 都 
有 消费 ,时 间 点 也 较 多 ,说 明 两 家 酒店 的 客户 重 倒 率 较 高 ,是 直接 竞争 的 关系 。 


表 8.8 A 商务 宾馆 与 C 商务 宾馆 评分 对 比 












































昵称 A 商务 宾馆 评分 时 间 | A 商务 宾馆 评分 |C 商务 宾馆 评分 时 间 | C 商务 宾馆 评分 
coolszy 2016-10-27 本 2016-09-25 5.0 
WZHuangHe 2016-05-08 3 省 2016-11-10 4.3 
M13388 xxx 关 2016-08-18 5.0 2016-01-05 5.0 
fengji xxx* 2016-10-12 4.0 2016-07-14 4.8 
118002 xxxx 2016-12-03 4.3 2016-06-17 二 5 
品味 人 生 2016-11-13 5.0 2016-07-31 5.0 
品味 人 生 2016-10-26 5.0 2016-07-31 5.0 
品味 人 生 2016-09-19 5.0 2016-07-31 5.0 
品味 人 生 2016-10-24 5.0 2016-07-31 5.0 
jiao_qiao 2016-04-01 5.0 2016-08-24 5.0 
y6080 2016-07-12 4.0 2016-02-01 5.0 
6851 xxxx 2016-09-28 5.0 2016-09-26 5.0 
M26855 xxxx 2016-10-30 2.8 2016-10-30 3.0 
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续 表 
昵 称 A 商务 宾馆 评分 时 间 | A 商务 宾馆 评分 |C 商务 宾馆 评分 时 间 | C 商务 宾馆 评分 
118002 xxxx 2016-12-03 4.3 2016-06-01 4.0 
300489 xxx% 2016-10-23 4.0 2015-05-09 4.0 
300489 xxxx 2016-10-23 5.0 2015-05-09 4.0 
300251 xxx% 2016-10-23 5.0 2016-10-17 5.0 
300251 xxx¥ 2016-10-21 5.0 2016-10-17 5.0 
300251 xxx¥ 2016-10-17 5.0 2016-10-17 5.0 
300251 xxxx 2016-10-18 5.0 2016-10-17 5.0 
jiao_qiao 2016-04-01 5.0 2016-07-08 4.0 
_M1381895 xxxx 2016-11-28 5.0 2015-05-13 4.0 
_M1381895 xxxx 2016-06-23 4.0 2015-05-13 4.0 
折腾 000 2016-08-24 5.0 2015-03-14 4.0 
M10537 xxx¥ 2016-07-02 5.0 2015-11-12 3.5 
yuxun5200 2016-06-16 5.0 2015-05-28 5.0 
yuxun5200 2016-06-16 5.0 2015-05-28 5.0 
1590520 xxx¥ 2016-05-19 4.0 2015-12-22 3.5 
zhangji *xxx 2016-01-02 2.0 2015-11-28 3.3 
zhangji xxxx 2015-11-28 5.0 2015-11-28 3.3 
6851 #xxx 2016-09-28 5.0 2015-10-21 5.0 
6851 xxx% 2016-09-28 5.0 2015-04-05 5.0 
300251 xxx% 2016-10-23 5.0 2015-08-14 3.8 
300251 xxx¥ 2016-10-21 5.0 2015-08-14 3.8 
300251 xxx% 2016-10-17 5.0 2015-08-14 3.8 
300251 xxx¥ 2016-10-18 5.0 2015-08-14 3.8 
WZHuangHe 2016-05-08 3.5 2014-11-21 3.8 
zhangji xxx% 2016-01-02 2.0 2015-11-14 4.0 
Zhan 多 ji *xxx 2015-11-28 5.0 2015-11-14 4.0 
zhangji xxx% 2016-01-02 2.0 2015-10-21 4.0 
Zhan 多 ji *xxx 2015-11-28 5.0 2015-10-21 4.0 














图 8. 54 是 其 比较 结果 的 直观 显示 , 横 坐 标 为 客人 昵称 ,先后 顺序 代表 了 时 间 的 前 后 顺 
序 , 对 比 发 现 前 期 A 商务 宾馆 的 评分 较 低 , 随 着 时 间 的 推移 ,有 更 多 的 客人 从 C 商务 宾馆 转 
向 A 商务 宾馆 ,说 明 A 商务 宾馆 在 与 C 商务 宾馆 的 竞争 中 ,客户 吸引 力 有 逐步 增强 的 趋势 。 

相同 客人 对 A 商务 宾馆 打分 超过 C 商务 宾馆 的 有 14 条 记录 , 低 于 其 分 值 的 记录 数 为 
10 条 ,具有 71.4% 的 竞争 优势 ,优势 未 超过 80% ,并 不 明显 。 从 客户 吸引 力 的 角度 来 看 ,A 
商务 宾馆 在 同类 商务 酒店 中 具有 微弱 领先 的 客户 吸引 力 ,但 在 与 星 级 酒店 的 竞争 中 明显 处 
于 劣势 ,由 于 星 级 酒店 B 与 A 商务 宾馆 的 平均 价格 差 低 于 100 元 ,一 旦 对 方 进行 促销 或 推 
出 特惠 等 降价 营销 方案 ,将 与 A 商务 宾馆 形成 直接 竞争 ,会 严重 影响 A 商务 宾馆 的 经 营 。 

5. 热 词 频率 对 比 


通过 对 评论 中 热 词 的 分 析 ,我 们 知道 具有 较 高 区 分 度 的 核心 热 词 有 : 服务 .早餐 .干净 、 
卫生 、 前 台 、 环 境 、 热 情 、 高 铁 , 其 中 “早餐 为 负面 关键 词 ,出 现 的 频次 越 多 ,说 明 评价 越 低 , 即 





相同 入 住人 群 不 同 酒店 记 
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KRESS SS SS 
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名 A 商务 宾馆 评分 C 商 务 宾馆 评分 


图 8.54 A 商务 宾馆 与 C 商务 宾馆 评分 对 比 


一 般 以 抱怨 早餐 品质 为 主 ,而 "高铁" 这 一 热 词 的 区 分 度 较 低 。 

由 于 各 家 酒店 的 评论 数量 相差 较 多 ,为 了 获得 各 家 酒店 中 各 关键 词 公平 的 比较 结果 ,使 
用 关键 词 出 现 的 频率 进行 对 比分 析 , 关 键 词 频率 为 其 词 频 除 以 某 一 酒店 的 所 有 分 词 的 总 词 
频数 之 和 ,如 果 某 一 关键 词 的 比值 较 高 ,说明 这 家 酒店 的 此 项 特征 较 明 显 ,如果 关键 词 为 正 
向 态度 , 则 表示 酒店 在 这 方面 较 好 ,反之 ,说 明 酒 店 的 问题 较 严 重 。 经 过 统计 计算 ,3 家 酒店 
的 关键 词 出 现 频率 对 比 结果 如 图 8. 55 所 示 。 


不 同 酒店 相同 评论 关键 词 出 现 频率 对 比 
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图 A 商务 宾馆 。” 四 B 酒 店 。 圆 C 商 务 宾馆 


图 8.55 不 同 酒店 相对 评论 关键 词 频率 对 比 


从 图 8. 55 中 可 以 看 出 ,服务 方面 B 酒 店 远 高 于 其 他 两 家 商务 酒店 ,A 商务 宾馆 的 服务 
处 于 最 低 水 平 , 略 低 于 C 商务 宾馆 。 从 前 文 的 分 析 中 已 经 知道 ,服务 水 平 在 酒店 的 整体 评 
价 中 最 重要 ,区 分 度 最 高 ,所 以 在 这 方面 A 商务 宾馆 提升 空间 很 大 。 
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“早餐 ”为 负面 关键 词 ,C 商务 宾馆 的 评论 中 提 及 最 多 , 远 高 于 其 他 两 家 ,说 明 这 家 酒店 
的 早餐 质量 确实 较 差 ,而 另外 两 家 酒店 的 出 现 频 率 相差 不 多 ,没有 太 多 差距 。 

在 干净 卫生 和 环境 方面 ,3 家 酒店 的 评论 中 出 现 频率 区 分 度 不 大 ,只 是 C 商务 宾馆 在 
“干净 ”关键 词 表 现 略 好 于 其 他 两 家 酒店 。 

提 及 “前 台 ” 的 评论 中 ,B 酒店 中 的 频率 远 高 于 其 他 两 家 酒店 ,同时 出 现 “ 热 情 ” 的 评 
论 ,B 酒 店 更 是 远 超过 它们 ,结合 服务 方面 的 表现 ,说 明了 酒店 的 服务 水 平 有 口 皆 碑 ,已 经 
形成 较 强 的 品牌 影响 力 和 竞争 力 ,A 商务 宾馆 和 C 商务 宾馆 之 间 的 频率 结果 相差 不 大 ， 
间接 说 明 经 济 型 商务 酒店 在 服务 方面 ,具体 表现 就 是 前 台 不 热情 或 者 其 热情 程度 没有 给 
客人 留 下 较 深 印象 。 

“高 铁 " 的 关键 词 区 分 度 一 般 ,其 结果 的 准确 性 较 低 ,C 商务 宾馆 和 A 商务 宾馆 都 位 于 
高 铁 站 附近 ,所 以 这 两 家 的 评论 中 提 及 频率 较 高 ,这 并 不 影响 酒店 的 整体 评价 水 平 ,也 间接 
说 明 酒店 的 位 置 对 酒店 的 好 评 率 影响 较 小 。 

6. 情感 分 析 对 比 

基于 前 述 对 客户 情感 的 分 析 理 论 ,依据 聆 虫 获得 评论 数据 ,对 评论 内 容 进行 情感 分 析 ， 
得 到 不 同 酒店 之 间 的 情感 分 布 图 ,如 图 8. 56 所 示 。 

不 同 酒店 评论 中 各 情绪 分 布 柱状 图 
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情绪 : 情绪 : 情绪 : 情绪 : 情绪 : 情结 : 情绪 : 情绪 : 情绪 : 情绪 : 情绪 : 情绪 ; 

A 商务 宾馆 B 酒 店 C 商 务 宾馆 D 酒 店 


图 8.56 不 同 酒店 情绪 分 布 图 


从 图 8. 56 中 可 以 看 出 ,在 评论 积极 情绪 方面 ,好 评 率 最 高 的 是 B 酒店 ,其 次 是 A 商务 
宾馆 ,然后 是 C 商务 宾馆 和 D 酒店 。 从 中 可 以 看 出 ,对 于 A 商务 宾馆 而 言 , 在 业界 好 评 最 高 
的 是 B 酒 店 ,也 是 A 商务 宾馆 强 有 力 的 竞争 对 手 。 将 A 商务 宾馆 、C 商务 宾馆 、B 酒店 的 情 
感 分 词 的 标签 去 进行 对 比分 析 , 如 图 8. 57 所 示 。 

从 评论 分 布 中 可 以 清晰 地 看 出 ,B 酒店 的 服务 明显 更 为 高 档 ,如 还 提供 水 果 、 自 助 早餐 
等 服务 ,可 以 看 出 在 服务 方面 很 热情 ,其 中 前 台 的 作用 非常 重要 。 这 与 B 酒 店 的 自身 定位 
密切 相关 ,其 作为 一 家 连锁 星 级 酒店 ,在 好 评 的 积极 情绪 上 比 A 商务 宾馆 更 佳 。 

从 图 8. 57 中 可 以 看 出 ,A 商务 宾馆 和 C 商务 宾馆 的 最 高 词 频 都 是 方便 干净 ,环境 、 早 
餐 等 。 观 察 词 频 可 以 发 现 B 酒 店 的 “服务 ”非常 突出 , 词 频 为 632 次 ,“ 前 台 ” 被 提 及 的 次 数 
有 250 次 ,这 是 其 主要 优点 之 一 ,说 明 从 事 服务 行业 前 台 的 服务 水 平 非常 重要 。 

图 8. 58 是 根据 负面 评论 内 容 进行 分 词 生成 的 可 视 化 词 频 统计 。 其 中 ,人 A 商务 宾馆 被 用 











图 8. 57 ”从 左 至 右 依次 为 AC.B 酒 店 全 部 评价 主题 


户 提 及 最 多 的 是 早餐 .态度 、 难 找 等 ; C 商务 宾馆 被 提 及 最 多 的 是 早餐 .服务 前台、 周边 等 ; 
B 酒店 被 提 及 最 多 的 是 万 达 , 其 次 是 广场 .设施 、 环 境 等 ,之 所 以 万 达 和 广场 这 两 个 字 在 负面 
词 频 中 较 多 ,是 B 酒店 与 万 达 无 关 , 并 且 距 离 万 达 广 场 并 不 近 , 导 致 客户 对 此 抱怨 。 


Pa a ， 诺 设 施 爸 
pe 超级 不 取 人 












实在 各 不 名 3 
. 沪 便 冷 | 从 内 


Ck 


面包 分 钟 … 


这 沽 ”， 到 和 和 不 对 起 
和 


8. 58 差 评 标签 云图 ,从 左 至 右 依 次 为 A.C、B 酒店 


结果 表明 ,A 商务 宾馆 令 用 户 最 不 满意 的 是 早餐 问题 , 词 频 为 4 次 ,服务 员 的 服务 态度 
也 不 够 到 位 ,很 多 客人 提 及 位 置 难 找 和 周边 配套 ,并 且 存 在 房间 装修 异味 问题 。C 商务 宾馆 
同样 存在 服务 问题 ,存在 的 主要 负面 关键 词 与 A 商务 宾馆 基本 一 致 ,早餐 情况 要 差 于 A 商 
务 宾馆 , 词 频 为 12 次 ,从 侧面 可 以 看 出 经 济 型 商务 酒店 在 服务 和 早餐 上 是 主要 短 板 。 观 察 
B 酒店 的 结果 ,其 负面 评论 关键 词 数量 明显 较 少 , 最 高 词 频 仅 为 3 次 。 在 全 部 评论 中 提 及 次 
数 最 多 的 服务 也 出 现在 差 评 的 高 频 词汇 中 ,通过 查看 评论 原文 发 现 ,是 客人 点 评 中 首先 评价 
其 服务 不 错 ,同时 批评 其 他 方面 不 足 ,导致 服务 关键 词 在 负面 词 频 中 计数 多 。 令 用 户 不 满意 
的 是 万 达 广 场 的 关系 问题 ,这 是 由 于 B 酒店 距离 万 达 广 场 超过 lkm, 并 且 与 万 达 广 场 没 有 
关系 , 除 此 之 外 的 是 有 一 位 客人 评价 态度 较 差 ,一 位 客人 评价 晚上 停电 ,一 位 客人 评价 环境 
太 偏 ,一 位 客人 评价 网 络 较 慢 。 总 体 负面 评价 较 少 。 

对 于 定位 相同 的 商务 宾馆 ,可 以 看 到 从 好 评 率 上 A 商务 宾馆 具有 一 定 的 领先 优势 ,对 
比 三 者 的 评论 分 布 图 后 发 现 ,A 商务 宾馆 在 地 理 位 置 上 具有 最 大 优势 。 不 过 ,同样 也 可 以 
看 出 ,在 服务 和 设施 方面 还 有 待 加 强 。 如 果 能 在 服务 上 对 宾馆 质量 进行 提升 ,可 以 使 得 A 
商务 宾馆 远 超 对 手 , 获 得 更 大 的 竞争 优势 。 
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8.6 建议 


经 过 上 述 数据 挖掘 和 对 各 酒店 评分 及 情感 分 析 比 较 , 在 A 商务 宾馆 的 当前 经 营 竞争 条 
件 下 ,可 以 得 出 以 下 结论 : 

(1) A 商务 宾馆 在 口碑 上 次 于 了 酒店, 略 高 于 C 商务 宾馆 ,领先 于 D 商务 酒店 ,在 经 济 
型 商务 酒店 中 竞争 力 较 强 。 

(2) A 商务 宾馆 的 主要 竞争 对 手 是 C 商务 宾馆 ,两 者 在 综合 口碑 评分 上 相差 不 大 ,甚至 
在 卫生 ,设施 等 单项 评分 上 也 难以 拉 开 距离 。 

(3) A 商务 宾馆 与 星 级 酒店 (如 B 酒店) 的 竞争 中 ,优势 较 少 ,客户 吸引 力 较 弱 , 两 者 的 
定位 和 价格 虽 有 差距 ,但 并 不 明显 ,如 果 B 酒店 推出 低 价格 客房 ,将 形成 直接 竞争 ,最 终 会 
影响 A 商务 宾馆 的 经 营 收入 。 

在 服务 性 行业 中 ,A 商务 宾馆 要 形成 更 强 的 竞争 优势 ,核心 在 于 提高 服务 水 平 ,不 只 是 
在 早餐 ,设施 等 硬件 方面 提升 客人 体验 ,更 要 在 观念 上 进行 改变 ,使 服务 人 员 发 自 内 心 为 客 
人 服务 ,建议 在 以 下 几 个 方面 进行 改进 或 完善 。 

1. 提升 服务 水 平 

对 员工 进行 标准 化 培训 ,必要 时 进行 商务 礼仪 培训 ,提高 商务 出 差 客 户 的 服务 能 力 , 特 
别 是 前 台 人 员 的 服务 意识 要 加 强 ,使 客人 能 够 感受 到 服务 人 员 的 热情 ,必要 时 建立 前 台 人 员 
奖励 机 制 , 如 奖金 与 网 上 评论 的 评分 进行 挂钩 ,形成 正 向 激励 。 

2. 改善 早餐 品质 

早餐 是 经 济 型 商务 酒店 的 重要 竞争 因素 ,除了 满足 商务 人 群 对 早餐 的 干净 ,卫生 等 基本 
要 求 外 ,还 需要 增加 可 选 种 类 ,以 提供 多 样 化 选择 ,适应 大 多 数 客人 的 需求 ,重点 提高 餐 食 的 
口味 品质 和 服务 人 员 的 服务 意识 。 

3. 建立 会 员 系统 和 关怀 方案 

对 会 员 投 诉 进行 物质 奖励 或 积分 补贴 ,使 客户 负面 情绪 转化 为 正 向 好 评 , 可 提升 客户 的 
忠诚 度 ,提高 已 人 住 客户 的 复 购 率 。 

4. 对 房型 进行 重新 调整 

使 客人 选择 更 平均 化 ,不 要 全 集中 于 舒适 大 床 房 和 和 舒适 双 床 房 。 目 前 房型 的 区 分 度 只 
在 于 面积 大 小 ,并 不 实用 ,建议 在 高 端 房型 中 增加 餐饮 方面 更 加 优质 的 服务 ,如 提供 更 多 早 
和 餐 选 择 、 入 住 即 送 免 费 水 果 、 下 午 茶 \ 夜 宵 等 ,特别 注意 适应 商务 人 群 的 高 层次 需要 。 

5. 使 客户 易于 找到 酒店 

尽 可 能 在 主要 道路 建立 指引 标识 ; 在 酒店 预订 网 站 的 相关 网 页 介绍 中 加 入 指引 
提示 。 

6. 保证 设施 和 硬件 维护 及 时 

及 时 更 新 或 优化 设施 ,如 空调 .WirFi 设备 .地 毯 、 热 水 等 ,建立 应 急 处 理 机 制 ,保证 客人 
报修 后 及 时 响应 ,防止 出 现 维修 不 及 时 ,给 客人 带 来 不 便 。 


第 外 音 
耐 热 导线 工厂 质量 管理 数 忆 芬 村 


随 着 制造 企业 信息 化 的 发 展 , 生 产 过 程 逐 步 实现 数字 化 ,企业 会 积累 大 量 的 制造 和 质量 
检测 数据 。 在 大 数据 时 代 , 如 何 利用 这 些 数据 ,从 中 找 出 产品 生产 过 程 中 存在 的 问题 ,发 现 
制造 流程 中 可 以 改进 的 环节 ,这 是 减少 制造 成 本 ,提高 产品 质量 的 重要 保证 ,也 是 实现 智慧 
工厂 的 必要 组 成 部 分 。 


9.1 项 目 概 述 


某 集团 耐 热 导 线 工厂 (以 下 简称 耐 热 导 线 工厂 ) 在 多 年 的 生产 过 程 中 ,已 经 上 线 了 基本 
的 生产 管理 系统 ,收集 了 产品 生产 过 程 中 的 一 些 工艺 参数 、 各 工序 的 成 品 检测 结果 等 数据 ， 
通过 对 这 些 数 据 的 分 析 , 可 以 在 很 大 程度 上 减少 经 验 式 管理 带 来 的 不 足 , 降 低 废品 率 ,提高 
加 工 机 台 的 工作 性 能 和 稳定 性 。 

目前 , 耐 热 导线 工厂 的 主要 产品 包括 钢 芯 铝 绞 线 \ 钢 芯 铝 合金 绞 线 、 铝 合金 绞 线 以 及 铝 
包 钢 绞 线 等 系列 产品 ,并 致力 于 高 强度 铝 合金 线 . 耐 热 铝 合金 导线 等 新 产品 的 开发 生产 。 目 
前 ,多 种 产品 在 国内 外 的 市 场 上 占有 一 定 的 地 位 。 

耐 热 导 线 的 生产 主要 由 三 道 工序 组 成 : 轧机 、 拉 丝 和 绞 线 ,不 同 工 序 对 质量 都 有 相应 的 
要 求 。 轧 机 工序 的 成 品质 量 与 后 续 的 两 个 工序 的 成 品质 量 之 间 有 明显 的 关联 性 ,因此 可 以 
通过 第 一 道 工 序 的 成 品质 量 预 测 后 续 工 序 的 成 品质 量 , 也 可 以 用 后 来 两 道 工序 产品 的 质量 
来 “ 反 推 "第 一 道 工序 的 质量 。 

目前 ,公司 对 于 耐 热 导 线 的 制造 数据 管理 还 停留 在 检测 数据 的 简单 录入 、 查 询 阶段 ,有 
关机 台 工 艺 参数 和 加 工 状 态 的 数据 ,还 暂时 没有 收集 或 充分 利用 ,难以 通过 数据 分 析 技 术 建 
立 工序 间 的 关联 性 ,因此 不 容易 在 生产 前 进行 预警 .在 生产 中 进行 控制 ,往往 到 最 终 的 产品 
检验 时 发 现 质量 问题 为 时 已 晚 。 我 们 在 耐 热 导 线 工厂 最 近 2 年 的 质量 管理 数据 的 基础 上 ， 
分 析 了 这 些 数据 存在 的 问题 ,进行 了 大 量 的 预 处 理 , 利 用 统计 学 、 多 维度 分 析 、 数 据 挖掘 以 及 
可 视 化 等 多 种 数据 分 析 方 法 ,以 提高 最 终 产 品 的 合格 率 为 目标 ,探索 耐 热 导 线 的 加 工 流 程 中 
几 个 步骤 之 间 半 成 品 或 成 品质 量 指标 之 间 的 关系 。 
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影响 耐 热 导 线 加 工 过 程 的 因素 很 多 ,这 些 因素 或 多 或 少 还 存在 一 定 的 相关 性 ,它们 之 间 
的 关系 使 用 数学 函数 表示 ,也 是 非常 复杂 的 非 线 性 函数 。 但 分 析 不 同 工 序 质量 指标 的 相关 
性 ,在 很 大 程度 上 可 以 调节 不 同 工 序 的 加 工 要 求 ,使 最 终 产 品 的 合格 率 提高 。 此 外 ,有 一 部 
分 成 品 的 质量 规格 超过 的 国家 标准 较 多 ,这 说 明 第 一 道 工 序 中 存在 着 “质量 宛 余 ”, 需 要 通过 
分 析 工序 之 间 的 关系 ,在 产品 合格 的 基础 上 使 质量 指标 达到 一 个 较 合 适 的 标准 ,以 消除 宛 
余 , 降 低 成 本 。 

限于 篇 幅 以 及 保密 原因 ,本 章 仅 讨论 单线 线 径 与 所 选用 杆 强度 之 间 的 关系 , 即 是 否 有 必 
要 按照 单线 线 径 的 范围 来 选择 相应 的 杆 强度 范围 。 


9.2 耐 热 导 线 生产 质量 数据 预 处 理 


我 们 曾 多 次 与 耐 热 导 线 工 厂 相 关 人 员 沟 通 ,并 赴 工 厂 实 地 考察 耐 热 导 线 生 产 过 程 。 耐 
热 导线 生产 的 原材料 是 铝 杆 ,公司 接 到 订单 ,确定 生产 某 种 具体 规格 的 铝 线 后 ,根据 杆 材 流 
转 使 用 规定 选择 相应 的 铝 杆 ,并 检查 铝 杆 是否 符 合 相 应 的 要 求 。 然 后 进入 铝 线 的 生产 工 
序 一 一 拉丝 工序 。 经 过 高 速 拉 丝 后 ,通过 检验 铝 线 的 线 径 、 表 面 质量 等 指标 ,对 铝 线 的 质量 
进行 控制 。 

数据 来 源 为 耐 热 导线 工厂 提供 的 自 2014 年 3 月 开始 至 2016 年 2 月 底 两 年 的 锅 线 生产 
线 生产 数据 ,包括 原材料 检测 数据 50 万 条 ,成 品 检测 数据 70 万 条 ,制造 执行 系统 (MES) 中 
各 条 生产 线 的 制造 数据 总 计 150 多 万 条 。 直 接 对 如 此 多 的 数据 进行 处 理 和 分 析 难 以 满足 要 
求 ,因此 需要 对 工厂 提供 的 原始 数据 进行 整合 和 预 处 理 。 

耐 热 导线 工厂 提供 的 数据 来 自 于 原来 的 项 目 执行 单 表 、 轧 机 生产 日 报表 ,拉丝 生产 日 报 
表 \ 绞 线 生 产 日 报表 、 各 类 成 品 检测 表 、 各 类 半成品 检测 表 、 各 类 原材料 检测 表 、 机 台 设 备 信 
息 表 、 班 组 信息 表 等 。 数 据 量 大 且 较 为 分 散 ,需要 的 信息 分 散在 多 个 数据 表 里 。 为 了 根据 目 
标 铝 线 选 择 相应 的 铝 杆 ,就 需要 通过 耐 热 铝 线 的 编号 追溯 到 铝 杆 的 各 项 数据 。 通 过 将 订单 
编号 与 项 目 执行 单 进行 关联 ,项 目 执行 单 与 轧机 生产 日 报表 ,拉丝 生产 日 报表 、 绞 线 生产 日 
报表 通过 相同 合同 编号 进行 连接 ,进行 关联 的 方式 ,追溯 铝 杆 的 生产 数据 。 

这 里 主要 采用 SQL Server 中 的 T-SQL 语句 inner join \left join right join 等 将 多 表 进 
行 连接 整合 ,得 到 与 铝 杆 相关 的 数据 主要 包括 铝 杆 的 重量 、 实 测 外 径 、 抗 拉 强 度 、 拉 断 力 、 伸 
长 率 、 正 向 / 反 向 电阻 值 ,20'C 时 电阻 率 、 室 温 以 及 与 铝 线 相关 的 主要 参数 铝 线 的 线 径 与 抗 拉 
强度 等 。 整 合 后 得 到 目标 铝 杆 参数 、 铝 线 参数 表 。 

数据 分 析 能 获得 数据 中 蕴藏 的 信息 或 知识 。 高 质量 的 数据 是 数据 分 析 的 基础 。 我 们 在 
耐 热 导线 的 数据 分 析 过 程 中 ,主要 使 用 了 导线 加 工 过 程 各 工序 的 质量 检测 数据 ,而 加 工 设 
备 \ 生 产 工 艺 以 及 人 员 的 数据 因为 保密 、 数 据 收集 不 全 等 原因 暂时 没有 使 用 。 我 们 也 发 现 了 
耐 热 导 线 生 产 过 程 中 数据 收集 的 一 些 不 足 , 如 有 些 数据 人 工 输入 错误 或 者 测量 有 误差 , 某 些 
有 用 的 数据 暂时 没有 收集 或 缺失 ,这 些 问 题 都 对 耐 热 导 线 数 据 分 析 的 结果 产生 了 一 定 的 
影响 。 

耐 热 导线 工厂 提供 了 近 两 年 耐 热 导 线 检测 的 数据 ,涉及 多 个 合同 、 多 个 批 次 以 及 多 个 加 
工 机 台 。 经 过 上 述 数 据 整 理 的 步骤 之 后 .数据 中 还 存在 着 “ 脏 数 据 *”。 所 谓 脏 数据 ,就 是 数据 
中 存在 噪声 数据 ,错误 数据 、 缺 失 数 据 以 及 元 余数 据 等 问题 。 数 据 清 理 在 数据 预 处 理 阶段 花 
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费时 间 占 比 最 大 ,但 同时 它 也 是 最 重要 的 步骤 ,该 步骤 可 以 有 效 减少 及 数据 造成 的 低 质量 分 
析 结 果 。 
1. 噪声 数据 处 理 


噪声 数据 是 指数 据 中 存在 着 错误 或 偏离 期 望 值 的 数据 ,引起 噪声 数据 的 原因 可 能 是 硬 
件 故 障 、 编 程 错 误 .拼写 错误 或 者 识别 程序 中 的 乱码 。 对 于 噪声 数据 ,尤其 是 孤立 点 或 异常 
数据 ,不 能 随便 删除 ,这 些 数据 很 可 能 是 数据 分 析 中 的 异常 数据 。 

在 耐 热 导 线 生 产 数据 (这 里 主要 是 各 工序 成 品质 量 检测 数据 ) 中 ,主要 存在 的 数据 噪声 
形式 有 缺失 值 、 异 常 值 宛 余 值 等 。 缺 失 值 主要 存在 生产 过 程 记录 的 数据 中 ,并 不 是 每 一 项 
指标 的 数据 都 有 记录 ,同一 批 铝 杆 拉 出 的 铝 线 , 时 常会 出 现 某 个 铝 线 线 径 空缺 的 情况 ,这 主 
要 与 工厂 的 生产 线 记 录 管 理 有 关 。 蜡 常 值 是 指 存在 一 些 明显 不 符合 常规 的 数据 ,如 有 些 记 
录 中 铝 线 的 线 径 数值 达到 了 423mm', 而 这 个 数 实际 可 能 取 值 是 4. 23mm, 属 于 手工 录入 错 
误 。 元 余 主 要 表现 为 同一 生产 批 次 的 数据 重复 出 现 , 这 往往 是 数据 整合 过 程 中 产生 的 问题 。 

在 考察 铝 杆 抗 拉 强度 与 铝 线 线 径 关 系 时 ,首先 采用 分 箱 技术 。 由 于 奉 热 导线 工厂 给 出 
的 数据 中 ,同一 个 抗 拉 强度 对 应 的 线 径 有 时 差距 非常 大 ,存在 一 定 的 噪声 数据 ,根据 抗 拉 强 
度 对 数据 进行 分 箱 处 理 。 然 后 对 同一 个 箱子 里 的 数据 进行 处 理 , 将 数据 样本 中 的 奇异 值 , 极 
端 值 . 非 正常 值 等 数据 以 及 数据 本 身 的 特点 采用 图 形 方式 呈现 出 来 ,并 剔除 非 正 常 的 数据 样 
本 。 反 映 变量 集中 趋势 的 有 算术 平均 数 .中 位 数 。 反 映 变量 离散 程度 的 有 方差 .标准 差 和 极 
差 。 反 映 分 布 形态 的 描述 性 指标 有 偏 度 (skewness) 和 峰 度 (kurtosis) 。 偏 度 和 峰 度 是 判断 
数据 是 否 正 态 分 布 的 重要 指标 。 在 实际 检验 中 , 偏 度 和 峰 度 都 小 于 1 时 ,可 以 认为 数据 近似 
服从 正 态 分 布 。 

1) 按照 拉 依 达 准则 (3c 准则 ?剔除 异常 值 

拉 依 达 准 则 是 在 数据 总 体 服从 正 态 分 布 的 情况 下 ,根据 下 面 公 式 找 出 异常 值 : 

力 (| 并 一 & | 二 30) < 0.003 
式 中 心 表 示 变 量 的 平均 值 ; o 表示 变量 的 标准 差 。 对 大 于 x 十 3c 或 小 于 x 一 3c 的 数据 作为 异 
常数 据 , 耶 以 剔除 。 剔 除 后 ,对 余下 的 各 测量 值 重 新 计算 偏差 和 标准 偏差 ,并 继续 审查 ,直到 各 
个 偏差 均 小 于 3c 为 止 。 例 如 ,在 处 理 某 批 抗 拉 强 度 为 123MPa 的 铝 杆 对 应 的 铝 线 数据 时 , 根 
据 描述 统计 得 到 其 对 应 的 铝 线 线 径 分 布 近似 正 态 分 布 ,可 以 运用 拉 依 达 准 则 将 异常 值 剿 除 。 

2) 按照 时 间 序列 平滑 数据 

考虑 到 在 实际 测量 过 程 中 铝 线 线 径 数据 可 能 出 现 的 测量 误差 ,在 利用 拉 依 达 准 则 剔除 
异常 值 后 ,利用 多 次 测量 取 平 均值 的 误差 消去 方法 ,对 一 个 箱子 中 时 间 间 隔 在 3min 内 的 钻 
线 线 径 数据 取 平 均值 平滑 处 理 。 

2. 缺失 值 处 理 


处 理 缺 失 数据 的 方法 有 多 种 : 可 以 采用 近 阶 段 数据 的 线性 插值 法 进行 补缺 ; 可 以 采用 
该 时 间 段 的 历史 数据 填补 丢失 时 间 ; 可 以 用 缺失 数据 样本 周围 的 数据 来 代替 ; 可 以 使 用 一 
个 全 局 常量 或 者 属性 的 平均 值 填充 空缺 值 ; 可 以 使 用 数据 挖掘 的 算法 对 数据 进行 修复 ,如 
回归 方法 ,决策 树 或 者 贝 叶 斯 方法 ; 也 可 以 删除 少量 的 空 值 。 

由 于 铝 线 与 铝 杆 的 检测 参数 均 为 连续 性 的 数值 ,而 且 同 一 生产 批 次 产品 的 检测 参数 都 
在 一 定 的 小 范围 内 变化 ,所 以 主要 采用 线性 插值 法 对 缺失 参数 进行 补缺 。 
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3. 元 余数 据 处 理 

在 数据 整合 阶段 ,将 数据 由 不 同 的 业务 表 整 合 在 一 起 ,有 些 记录 会 产生 重复 的 情况 。 例 
如 ,将 生产 日 报 通过 订单 号 进行 关联 时 ,可 能 会 产生 多 条 相同 订单 号 的 生产 记录 。 因 此 需要 
对 多 条 相同 订单 号 的 生产 记录 数据 进行 处 理 , 通 过 SQL 中 的 distinct 关键 字 对 宛 余 的 数据 
进行 过 滤 ,只 保留 一 条 数据 。 

4. 铝 线 生产 数据 的 归 约 

由 于 存在 多 个 铝 杆 属性 ,这 些 变量 之 间 可 能 存在 某 种 关系 ,会 导致 变量 在 表达 某 一 现象 
时 产生 重 全 性。 数据 预 处 理 时 ,首先 得 到 对 输出 变量 影响 较 大 的 输入 变量 ,保留 这 些 变 量 并 
剔除 分 析 后 明显 不 相关 的 变量 , 约 简 变量 个 数 。 考 察 相 关 性 时 ,本 项 目 采 用 皮尔 森 
(Pearson) 相 关系 数 和 决策 树 分 析 两 种 方法 。 

1) 皮尔 森 相 关系 数 法 

皮尔 森 相 关系 数 是 用 来 反映 两 个 变量 相关 程度 的 统计 量 。 当 两 个 变量 的 线性 关系 增强 
时 ,相关 系数 趋 于 1 或 一 1。 正 相关 时 趋 于 1, 负 相关 时 趋 于 一 1。 当 两 个 变量 独立 时 ,相关 
系数 为 0。 采 用 皮尔 森 系数 考察 变量 之 间 的 相关 性 。 

可 以 看 出 ,与 铝 线 线 径 相关 性 较 高 的 两 个 属性 分 别 是 铝 杆 的 抗 拉 强 度 、 铝 杆 的 伸 长 率 ， 
而 其 他 变量 与 铝 线 线 径 相关 性 的 绝对 值 都 小 于 0. 1, 且 显著 性 水 平 大 于 0.05。 例 如 , 铝 杆 的 
电阻 率 与 铝 线 线 径 的 皮尔 森 相关 系数 为 一 0. 008, 而 且 显 著 性 检验 为 0.767, 杆 材 电 阻 率 和 
线 径 无 关 的 概率 到 了 0.767, 显 然 无 法 拒绝 该 假设 。 而 杆 材 的 伸 长 率 与 铝 线 线 径 的 相关 系 
数 达 到 了 一 0. 415, 显 著 系 数 为 0.000 表示 杆 材 伸 长 率 与 铝 线 实测 外 径 无 关 成 立 的 概率 为 
0, 可 以 拒绝 该 假设 ,证 明 铝 杆 抗 拉 强 度 与 铝 线 线 径 存在 强 相 关 性 。 

值得 注意 的 是 , 伸 长 率 与 抗 拉 强 度 的 负 相 关 性 也 达到 了 0. 651, 如 果 考 虑 两 个 变量 对 铝 
线 线 径 的 回归 分 析 , 会 产生 共 线 性 的 问题 。 这 里 的 共 线 性 问题 是 指 回归 模型 中 的 自 变 量 之 
间 由 于 存在 相关 关系 或 高 度 相关 而 使 模型 估计 失真 ,或 难以 估计 准确 ,需要 使 用 特殊 的 回归 
模型 处 理 。 

2) 决策 树 分 析 法 

为 了 进一步 验证 通过 皮尔 森 系数 法 得 到 的 相关 关系 ,本 项 目 还 采用 决策 树 模 型 对 铝 线 
线 径 的 影响 因素 进行 分 析 。 这 里 采用 基于 CART 算法 的 决策 树 考察 影响 铝 线 线 径 的 影响 
因素 。 生 成 树 的 过 程 中 使 用 * 剪 枝 ? 方 法 , 先 建立 一 个 划分 较 细 的 树 模型 ,再 根据 交叉 检验 
(cross validation) 的 方法 估计 不 同 “ 剪 枝条 件 下 各 模型 的 误差 ,选择 误差 最 小 的 树 模型 。 

我 们 主要 关心 变量 的 重要 性 ,可 以 看 到 , 铝 杆 的 抗 拉 强 度 和 伸 长 率 居于 重要 性 前 两 位 ， 
而 其 他 变量 的 重要 性 不 明显 ,这 与 通过 皮尔 森 相 关系 数 法 得 到 的 结论 吻合 。 因 此 ,在 分 析 过 
程 中 ,主要 考虑 伸 长 率 和 抗 拉 强度 等 属性 对 铝 线 线 径 的 影响 。 但 考虑 这 两 个 属性 带 有 比较 
强 的 相关 性 ,我 们 只 选择 铝 杆 的 抗 拉 强度 分 析 与 铝 线 线 径 的 关系 。 


9.3 耐 热 铝 线 质 量 检测 数据 分 析 


在 耐 热 铝 线 检测 数据 中 选择 了 数据 较 多 的 4 个 合同 。 依 据 单线 是 否 合格 ,将 每 个 合同 
下 的 数据 分 成 两 类 ,然后 分 别 取出 合格 单线 与 不 合格 单线 对 应 的 下 机 数据 和 冷 测 数据 。 再 
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通过 将 合格 单线 对 应 的 下 机 (或 冷 测 ) 数 据 与 不 合格 单线 对 应 的 下 机 (或 者 冷 测 ) 数 据 进行 比 
较 , 观 察 合格 与 不 合格 单线 对 应 的 两 道 工序 之 后 的 检测 数据 在 性 能 指标 的 概率 分 布 异同 。 

从 整体 上 说 ,这 4 个 合同 的 主要 性 能 指标 (如 抗 拉 强度 ,电阻 率 、 伸 长 率 等 ) 的 概率 分 布 
基本 相同 ,说 明了 规律 有 一 定 的 通用 性 ,但 在 细微 的 地 方 也 有 一 些 差 异 , 体 现 了 每 个 合同 的 
特殊 要 求 。 初 步 发 现 的 规律 如 下 : 

(1) 通过 观察 单线 几 个 性 能 指标 的 概率 分 布 ,可 以 得 出 这 样 一 个 结论 : 单线 不 合格 绝 
大 多 数 是 因为 抗 拉 强度 不 合格 导致 的 。 因 为 可 以 很 清楚 地 看 到 ,不 合格 单线 的 抗 拉 强度 几 
平 全 部 分 布 在 某 一 数值 左 侧 , 合 格 单线 几乎 全 部 分 布 在 右 侧 , 而 且 概 率 分 布 图 中 间 有 断 续 。 
而 反观 两 部 分 单线 在 其 他 合同 上 的 分 布 .它们 的 均值 可 能 略 有 差别 ,但 概率 分 布 图 几乎 完全 
王强 5 

(2) 观察 单线 在 抗 拉 强 度 上 的 比较 ,会 发 现 合格 单线 对 应 的 抗 拉 强 度 均值 大 于 不 合格 
单线 对 应 的 抗 拉 强度 均值 ,并 且 合格 单线 对 应 的 冷 测 阶段 和 下 机 阶段 的 抗 拉 强 度 都 相应 地 
大 于 不 合格 单线 对 应 的 数据 ,这 定性 地 说 明 在 抗 拉 强 度 上 冷 测 阶 段 和 下 机 阶段 的 抗 拉 强度 
与 单线 的 抗 拉 强度 具有 一 定 的 正 相关 性 。 但 是 不 合格 单线 和 合格 单线 对 应 的 冷 测 和 下 机 抗 
拉 强 度 均值 相差 不 是 很 大 ,而 且 标 准 差 很 大 。 

(3) 针对 某 一 合同 ,在 抗 拉 强 度 这 个 指标 上 比较 ,可 以 发 现 合格 与 不 合格 单线 的 抗 拉 强 
度 均值 的 差 大 于 对 应 的 冷 测 抗 拉 强 度 均值 的 差 ,而 后 者 又 大 于 对 应 的 下 机 抗 拉 强度 均值 的 
差 。 这 说 明 冷 测 对 最 后 性 能 的 影响 大 于 下 机 对 最 后 结果 的 影响 。 

将 单线 的 数据 作为 因 变量 输入 , 冷 测 的 数据 作为 自 变量 输入 ,回归 分 析 得 到 图 9. 1。 


Variable 1 Line Fit plot 








UNARY OUTPUT 


回归 统计 
Nultiple 0. 758919 
R Square 0. 575958 
Adjusted 0.505284 
标准 误差 6. 637132 
观测 什 8 





访 关 和 折 | 
图 9.1 单线 与 冷 测 数据 的 关系 


将 单线 的 数据 作为 因 变 量 输入 ,下 机 的 数据 作为 自 变 量 输入 ,回归 分 析 得 到 图 9. 2。 


SUNMARY OUTPUT 








X Variable 1 Line Fit Plot | 





归 统 it 1 
Multiple 0. 512575 * 
* 十 画 本 
R_Square | 0. 262733 | 、 320 四 年 。 目 4 
Adjusted 0.139856 ”310 昌 . Se 
标准 误差 8. 751616 300 + 加 预测 Y 
观测 值 8 162 164 166 168 170 


XVariable 1 





大 二 十 nvr 3 Ge 
图 9.2 单线 与 下 机 数据 的 关系 
可 以 看 到 ,对 于 不 同 合同 的 数据 ,这 种 正 相 关 性 都 存在 。 下 面 以 合同 号 XX/10789-1 的 
样本 数据 为 例 , 对 单线 抗 拉 强 度 进行 比较 ,其 中 左边 为 不 合格 样品 的 数据 ,右边 为 合格 样品 
的 数据 ,如 图 9. 3 所 示 。 
因为 315MPa 为 单线 抗 拉 强 度 合格 最 低 要 求 . 所 以 不 合格 的 抗 拉 强 度 全 部 分 布 在 
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时 站 后 扩 近 强度 /MPa 





图 9.3 单线 时 效 后 抗 拉 强度 的 比较 


315MPa 左边 ,合格 的 基本 全 部 分 布 在 315MPa 右边 ,但 也 有 少许 单线 抗 拉 强 度 大 于 
315MPa, 但 结果 为 不 合格 ,这 可 能 是 由 于 其 他 指标 (电阻 率 和 伸 长 率 ) 不 合格 导致 ,从 数量 上 
也 反映 出 绝 大 部 分 不 合格 成 品 是 因为 抗 拉 强 度 不 合格 导致 。 但 也 有 少许 抗 拉 强度 小 于 
315MPa, 但 记录 为 合格 ,这 或 许 是 因为 员工 操作 失误 导致 。 类 似 地 , 冷 测 抗 拉 强 度 的 比较 如 
图 9.4 所 示 。 








图 9.4 冷 测 抗 拉 强度 的 比较 


从 图 9.4 可 见 , 合 格 和 不 合格 单线 冷 测 抗 拉 强度 的 标准 差 几 乎 相同 ,但 不 合格 样品 的 冷 
测 抗 拉 强 度 均值 低 于 合格 样品 的 冷 测 抗 拉 强 度 。 图 9. 5 为 下 机 抗 拉 强度 的 比较 。 








抗 拉 强 度 直方 图 抗 拉 强度 直方 图 
:3 :3 











图 9.5 下 机 抗 拉 强度 的 比较 
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不 合格 与 合格 样品 对 应 的 下 机 阶段 抗 拉 强 度 无 论 均值 ,还 是 标准 差 都 非常 接近 ,几乎 没 
有 区 别 。 其 他 合同 号 的 样品 也 存在 类 似 的 现象 。 

下 面 通过 铝 合金 单线 线 径 与 选用 杆 强度 的 回归 分 析 , 分 别 讨论 铝 合金 与 硬 铝 的 单线 线 
径 与 对 应 杆 抗 拉 强 度 之 间 的 关系 。 这 里 以 XXX1 型 铝 合金 为 例 , 先 给 出 回归 分 析 得 到 的 结 
果 , 见 表 9. 1。 


表 9.1 XXX1 型 铝 合金 单线 线 径 规格 与 杆 材 强度 范围 关系 























线 径 /mm 选用 杆 强度 范围 /MPa 
2.0~2.5 170. 41 一 187. 81 
2.5~3.0 175. 12~193. 56 
3.0~3.5 179. 83 一 199. 32 
3.5 一 4.0 184. 53 一 205. 08 
4.0 一 4.5 189. 24 一 210. 84 
4.5 一 5.0 193. 95 一 216. 60 





XXX1 型 铝 合金 单线 线 径 与 所 选用 杆 材 强度 之 间 存 在 较 强 的 线性 关系 ,可 以 按照 单线 
线 径 的 范围 选择 相应 的 杆 材 强度 范围 。 随 着 线 径 变 粗 , 杆 材 选取 的 范围 会 变 大 。 下 面 给 出 
上 述 结论 的 分 析 过 程 。 

针对 上 面 分 析 的 问题 ,从 数据 集中 选取 3 个 属性 变量 ,分别 为 铝 合 金 类 型 ”“ 杆 材 强度 ” 
以 及 “ 线 径 规 格 "。 其 中 ,“ 杆 材 强度 ”与 “ 线 径 规格 ”是 分 析 的 对 象 ,“ 铝 合金 类 型 "是 类 别 属 
性 。 不 同 铝 合金 类 型 下 ,“ 杆 材 强 度 ” 与 “ 线 径 规格 "之 间 的 关系 可 能 不 同 。 

将 原 数据 集 分 为 3 个 数据 子 集 ,每 组 数据 子 集 的 数据 预 处 理 方式 类 似 : 

(1) 因为 数据 量 很 大 ,缺失 数据 量 在 总 样本 中 的 比例 很 小 , 故 直 接 删除 处 理 。 

(2) 样本 集中 大 部 分 为 重复 样本 , 即 多 个 样本 的 单线 强度 和 杆 材 强度 相同 ,重复 样本 对 
分 析 结 果 没 有 作用 , 故 删除 重复 样本 。 

(3) 在 每 组 数据 子 集中 ,以 “ 线 径 规 格 ”为 分 组 对 象 ,以 “ 杆 材 强 度 ” 为 汇总 对 象 ,进行 分 
类 汇总 ,计算 杆 材 强度 的 平均 值 。 以 Excel 为 汇总 工具 ,如 图 9. 6 所 示 。 





























分 类 汇总 这 
分 类 字段 (A): 
线 径 规格 mm 四 
汇总 方式 (U): 
平均 什 区 
选 定 汇总 项 (D): 
J 杆 材 强度 (MPa) 民 
9.6 分 类 汇总 


(4) 删除 异常 值 。 以 “ 杆 材 强度 ”为 横 轴 ,以 “ 线 径 规格 ”为 纵 轴 画 散 点 图 。 以 XXX1 型 
铝 合金 类 型 为 例 ,如 图 9.7 所 示 , 图 中 方 框 中 的 点 为 异常 点 ,这 里 直接 删除 。 
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“150 160 170 180 190 200 210 220 230 240 
杆 材 强度 /MPa 
图 9.7 删除 异常 值 


经 过 上 述 预 处 理 后 ,样本 数据 得 到 了 简化 ,而 且 也 反映 了 总 体 样 本 的 特点 。 从 散 点 
图 9.7 中 可 以 看 出 ,“ 杆 材 强度 ”与 “ 线 径 规格 "大致 呈现 线性 关系 ,但 不 是 非常 明确 ,从 而 需 
要 相关 系数 验证 是 否 存在 线性 关系 以 及 使 用 范围 区 间 来 表达 预测 值 。 

每 组 数据 子 集 以 属性 “ 杆 材 强度 ”为 因 变量 y, 以 属性 “ 线 径 规格 ”为 自 变量 zx 进行 回归 
分 析 , 使 用 R 语 言 分 析 如 下 : 

setwd("D: /Rwork") 

options(scipen = 3) 

lhalxq<— read. csv('LHR1 — XQ. csv') 

with(lhalxq, cor(x, y)) 

fitlxq<— lm(y~x, data = lhalxq) 

summary(fitlxq) 

confint(fitlxq, level = 0.90) 

程序 说 明 如 下 : 

setwd("D:/Rwork"): 设置 工作 表 路 径 为 D 盘 的 Rwork 文件 夹 。 

options(scipen 一 3) : 结果 表示 不 用 科学 记 数 法 。 

lhalxq <-read. csv('XXX1-XQ. csv'): 读 入 文件 名 为 XXX1-XQ 的 CSV 类 型 文件 到 
lhalxq 数据 集 ,CSV 文件 由 Excel 表 转 换 得 来 .CSV 类 型 文件 为 R 语 言 可 识别 读 入 文件 。 

with(lhalxq,cor(zx,y)): 计算 数据 集 lhalxq 中 x 与 y 的 相关 系数 。 

fitlxq <-lm(y 一 zz,data 一 Ihalxq): 将 名 为 lhalxq 数据 集中 的 y 与 x 作 线 性 回归 分 析 ， 
回归 函数 名 为 fitlxq。 

summary(fitlxq) : 查看 回归 分 析 。 

confint(fitlxq, level 二 0. 90): 查看 90% 的 置信 区 间 , 表 示 样 本 有 90% 落 在 区 间 范 
围 内 。 

XXX1 型 铝 合金 的 “ 杆 材 强度 ”与 “ 线 径 规格 "相关 系数 如 下 : 

Cor(r,y) 一 0.802 880 5,z 与 y 的 相关 系数 约 为 0. 80, 可 以 看 出 具有 较 强 线性 关系 。 
但 杆 材 强 度 与 单线 线 径 之 间 并 非 简单 的 线性 关系 ,使 用 一 条 线性 回归 方程 并 不 能 完全 表达 
它们 之 间 的 关系 。 为 了 简化 问题 ,可 以 使 用 区 间 概 念 近似 杆 材 强度 与 单线 线 径 之 间 的 非 线 
性 关系 。 
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XXX1 型 铝 合 金 样本 回归 分 析 如 图 9. 8 所 示 。 


Coefficients:- 
Estimate Std.Error tvalue Pr(>|t]) 
Intercept 55.2912 2.2466 69.12 <2e-16 ***, 





x [EE 六 404680 0.6346 。 16.50  k2e16*** 
SiER odes: Oe**0.001** 0.01%"0.05“0.1°1. 
Residual standard error: 5.762 on 150 degrees of reedom。 


Multiple R-squared: 0.6446, AdjustedR-squared: 0.6472 » 
F-statistic: 272.1 on 1and 150 DE, p-value: < 2.2e-16- 


图 9.8 XXXI1 型 铝 合金 样本 回归 分 析 


从 上 面 的 分 析 结果 可 见 , 拟 合 优 度 不 是 很 理想 ,解决 的 办 法 是 把 原 有 预测 为 一 个 具体 值 
的 结果 改 为 预测 区 间 的 表达 方式 。 这 就 需要 使 用 上 述 的 confint 语句 。 分 析 结 果 见 表 9. 2。 
预测 区 间 示 意图 如 图 9. 9 所 示 。 


表 9.2 XXXI1 型 铝 合金 单线 线 径 与 杆 材 强度 之 间 的 关系 














拟 合 线 信息 回归 方程 拟 合 优 度 系数 显著 性 
拟 合 线 L:y=155. 29+10.47zx 64.22% 关头 

拟 合 线 上 限 L1:y=159.01+11. 52x 

拟 合 线 下限 L2:y=151. 57+9. 42x 











线 径 规格 与 杆 材 强度 XXX1 型 
L2 

55 
5.0 
线 4.5 
规 ，4.0 
格 , 
于 | 35 
引 |3.0 
2.5 











ey 
S 
D 
Be 
Ss 


2950 160 170 180 190 200 210 
杆 材 强度 /MPa 
9.9 预测 区 间 示 意图 
根据 表 9. 2 中 的 回归 分 析 拟 合 线 下 限 和 上 限 计 算 铝 合金 单线 不 同 线 径 下 的 铝 合金 杆 材 


强度 。 根 据 铝 合金 单线 的 类 型 (XXX1) 以 及 线 径 (2 一 5mm) ,将 变量 x 代入 相应 的 关系 式 
( 表 9. 2 中 的 拟 合 线 下 限 和 上 限 ) ,计算 选取 的 铝 合金 杆 材 强度 y。 计 算 结 果 见 表 9. 3。 


表 9.3 XXX1 型 铝 合金 单线 线 径 与 杆 材 强度 关系 表 

















铝 合金 线 径 XXX1/mm 杆 材 强度 下 限 /MPa 杆 材 强度 上 限 /MPa 
2.0 170. 4083 182. 0462 
2.5 175. 1171 187. 8054 
3.0 179. 8259 193. 5645 
3.5 184. 5348 199. 3237 
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续 表 
铝 合金 线 径 XXX1/mm 杆 材 强度 下 限 /MPa 杆 材 强度 上 限 /MPa 
4.0 189. 2436 205. 0829 
4.5 193. 9524 210. 8421 
5.0 198. 6613 216. 6013 
进一步 整理 得 到 表 9. 4。 
表 9.4 XXXI 型 铝 合金 单线 线 径 与 杆 材 强度 范围 关系 
线 径 /mm 选用 杆 材 强度 范围 /MPa 流转 规定 杆 材 原 强度 范围 /MPa 
2.0~2.5 170. 41~187. 81 170~190 
2.5~3.0 175. 12~193. 56 180~200 
3.0~3.5 179. 83~199. 32 190~210 
3.5~4.0 184. 53~205. 08 190~205 
4.0~4.5 189. 24~210. 84 195~210 
4.5~5.0 193. 95~216. 60 200~215 








与 原 杆 材 强度 选取 范围 比较 ,在 较 细 的 线 径 下 , 杆 材 强度 选取 范围 有 较 小 程度 的 减 小 。 
在 较 粗 的 线 径 下 , 杆 材 选取 范围 稍 有 增加 。 

类 似 上 述 思路 ,还 可 以 分 析 硬 铝 的 单线 线 径 与 所 选用 杆 材 强度 之 间 的 关系 。 

通过 以 上 分 析 ,企业 可 以 基于 各 工序 成 品质 量 指 标 等 数据 ,利用 这 些 数据 之 间 的 关联 ， 
帮忙 耐 热 导线 工厂 优化 生产 流程 ,降低 制造 成 本 ,创造 最 大 化 获 利 。 

本 项 目 从 耐 热 导线 工厂 的 加 工 过 程 数 据 中 发 现 铝 杆 、 铝 线 和 导线 质量 指标 中 的 数据 异 
常 和 规律 ,从 而 找到 影响 加 工 质 量 的 因素 及 其 内 在 关系 ,作为 控制 整个 生产 质量 的 依据 ,并 
为 设备 的 预防 维修 提供 决策 依据 。 此 外 ,在 一 定 程度 上 还 可 以 增强 耐 热 导 线 工厂 利用 数据 ， 
改进 生产 流程 绩效 的 意识 ,并 切实 利用 生产 和 检测 数据 不 断 反思 生产 工艺 中 存在 的 问题 , 优 
化 生产 工艺 参数 ,提高 设备 的 性 能 ,在 数字 化 工厂 的 基础 上 建设 智能 化 工厂 。 


第 了 了 修 这 


基于 逻辑 回归 模型 的 
融 危 人 员 分 析 


随 着 社会 的 开放 性 、 流 动 性 增强 ,人 们 的 活动 范围 加 大 ,人 口 流动 性 加 速 , 人 户 分 离 增 
多 ,城市 的 人 口 变 化 加 快 。 特 别 是 随 着 经 济 成 分 就 业 方 式 ,组 织 形式 、 利 益 关系 和 分 配方 式 
的 多 样 化 ,经 济 社会 的 活动 更 加 纷繁 复杂 ,大 量 的 “单位 人 ” 变 成 “社会 人 ”, 而 社会 基层 组 织 
的 社会 控制 力 相对 减弱 , 实 有 人 口 管理 难度 明显 加 大 ,城市 安全 将 处 于 各 种 机 遇 和 风险 的 并 
存 期 ,无 论 是 从 维护 社会 和 谐 稳定 ,还 是 服从 服务 于 经 济 社会 的 长 远 发 展 出 发 ,加 强人 口 管 
理工 作 显 得 尤为 重要 。 

通过 信息 化 手段 加 强 对 违法 事件 的 管理 已 经 成 为 共识 。 国 外 发 展 较 快 的 地 区 已 经 实现 
了 通过 数据 分 析 打 击 犯罪 的 应 用 ,不 少 地方 已 经 将 数据 分 析 技术 引入 到 实战 业务 中 ,形成 符 
合 地 区 特点 的 数据 平台 和 应 用 ,并 取得 了 实质 性 的 成 果 。 在 国内 ,政府 各 部 门 也 在 奋起 直 
追 ,通过 不 断 推进 无 纸 化 进程 ,实现 数据 格式 化 存储 ,并 不 断 探索 共享 和 数据 应 用 。 

高 危 人 员 管理 就 是 充分 运用 现 有 的 实 有 人 口 基础 数据 和 能 够 反映 违法 犯罪 人 员 活 动 规 
律 .行为 特点 的 系统 资源 ,通过 建立 风险 评分 模型 ,实现 对 人 和 群 的 比 对 和 分 析 , 排 查 出 具有 违 
法 犯罪 可 疑 或 可 能 的 高 危 人 员 ,为 派出 所 民警 排查 高 危 人 员 提 供 有 效 的 方法 和 便捷 的 途径 ， 
实现 从 人 到 案 的 打击 破案 模式 ,寻找 打击 破案 的 增长 点 ,进一步 提升 人 口 管理 水 平和 效率 ， 
切实 做 到 人 口 管理 更 好 地 为 公安 实战 服务 。 

对 于 目前 实 有 人 口 数量 大 、 社 会 问题 复杂 的 情况 ,高危 人 员 探 知 和 对 其 风险 管理 手段 非 
常 不 足 。 目 前 ,公安 部 门 已 经 汇集 了 人 口 及 公安 业务 多 条 线 的 数据 ,利用 这 些 数 据 寻找 高 危 
人 群 管控 的 工作 路 径 成 为 工作 的 要 点 。 基 于 国内 外 的 成 功 经 验 ,针对 现状 ,整合 公安 人 员 轨 
迹 动态 数据 ,进行 有 效 的 预 处 理 ,形成 特征 变量 后 进行 归 集 抽取 ,并 选择 逻辑 回归 模型 来 构 
建 高 危 人 员 评 分 模型 ,以 此 为 核心 建立 高 危 人 员 管 理 系统 ,通过 应 用 模型 逐步 满足 业务 
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10.1 高 危 人 员 分 析 需 求 


高 危 人 员 是 指 在 实 有 人 口中 有 危害 国家 安全 、 和 危害 公 共 安全 或 其 他 违法 犯罪 嫌疑 的 , 须 
由 公安 机 关 进 行 调查 控制 发现, 甄别. 证实 其 违法 犯罪 行为 ,并 依法 进行 打击 处 理 的 人 口 。 
该 类 人 员 多 年 来 主要 靠 公 安民 警 和 属地 政府 社会 管理 人 员 人 工 排 摸 ,情况 收集 ,手工 上 报 等 
方式 进行 管理 。 对 于 高 危 人 员 的 高 危 程 度 ,主要 依靠 办 案 人 员 的 经 验 来 判定 ,哪些 是 高 危 度 
较 高 的 ,哪些 又 是 关注 度 较 低 的 。 这 种 方式 的 操作 往往 效率 和 准确 性 都 较 低 , 缺 乏 科 学 性 和 
规律 性 。 因 此 ,在 公安 管理 过 程 中 ,需要 建立 一 套 符合 高 危 人 员 管 理 实际 的 评估 体系 ,综合 
人 员 的 基本 情况 、 居 住 情况 .就业 情 况 、 消 费 情况 ,活动 场所 、 社 交情 况 等 数据 ,对 人 员 进 行 科 
学 合理 的 高 危 评 估 , 并 对 该 类 人 员 进 行 分 类 和 管理 。 按 照 人 员 高 危 程 度 采取 不 同 的 管控 措 
施 ,通过 细致 的 分 类 管理 ,加 强 公安 对 高 危 人 员 的 管控 力度 ,提高 预防 等 级 。 

高 危 人 员 管 理 主要 解决 的 问题 是 ,目前 高 危 人 员 管控 缺少 手段 ,预防 和 排 摸 都 缺少 目标 
性 ,需要 充分 挖掘 和 利用 管理 方 已 积累 的 大 量 业 务 数据 ,以 全 面 分 析 人 员 行 为 和 未 来 发 生 犯 
罪 之 间 的 关系 ,将 人 员 高 危 程度 量化 ,从 而 科学 化 地 缩小 人 员 管 控 范 围 ,提高 犯罪 打击 准 
确 度 。 

嫌疑 度 的 确定 上 不 能 简单 依靠 经 验 判 断 , 主 观 腾 断 更 不 可 取 。 因 此 ,基于 目前 人 口 规模 
大 、 重 复 犯罪 率 较 高 线索 往往 不 足 的 现状 ,一 套 可 以 将 嫌疑 人 员 的 嫌疑 度 直 观 的 量化 ,并 能 
给 予 办 案 人 员 该 量化 分 值 构 成 及 解释 的 方法 ,对 嫌疑 人 员 范 围 进 行 科学 的 缩小 ,以 此 辅助 工 
作 开 展 ,就 显得 极 有 意义 和 价值 了 。 


10.2 高 危 人 群 相 关 数据 收集 与 预 处 理 


目前 ,公安 已 经 实现 来 沪 人 员 、 本 市 户籍 人 户 分 离 人 员 信 息 在 居 ( 村 ) 委 中 进行 采集 ,得 
到 了 大 量 的 数据 。 如 何 利用 好 这 些 数据 ,使 人 口 管理 工作 进一步 服务 基层 实战 ,从 中 挖掘 出 
有 效 、 准 确 、 及 时 和 具有 指导 意义 的 信息 ,特别 是 对 于 符合 公安 业务 需要 的 有 违法 犯罪 前 科 
劣迹 和 需要 公安 民警 重点 关注 的 人 员 流 入 情况 的 提示 ,以 便于 民警 在 工作 中 对 辖区 人 口 成 
分 、 结 构 . 层 次 有 更 准确 ,快捷 的 了 解 , 从 而 减 小 民警 的 工作 强度 。 

所 有 数据 划分 为 以 下 几 个 步骤 : 原始 类 型 转换 清理, 整合. 拆 分 ,终止 。 所 有 表 在 数据 
清理 阶段 (第 一 阶段 ) ,判断 数据 是 否 重复 ,如 果 数据 重复 , 则 直接 将 数据 步骤 置 为 终止 状态 ， 
记录 终止 原因 ,所 有 终止 状态 数据 不 参与 后 面 的 步骤 。 

数据 清理 完成 后 ,根据 业务 要 求 将 数据 整合 为 人 口 动态 轨迹 数据 库 ,并 在 数据 库 中 根据 
不 同 的 主题 分 类 抽取 数据 变量 ,通过 数据 导入 功能 将 数据 存 入 数据 中 心 库 中 。 以 此 完成 数 
据 的 准备 工作 ,为 后 续 的 数据 模型 的 生成 建立 了 基础 。 

人 员 轨 迹 信息 同 构 整 合用 于 将 异 构 的 数据 源 全 部 同 构 化 到 高 危 人 员 分 析 系 统 数据 库 
中 。 异 构 的 数据 源 包括 : 网 吧 上 网 人 员 的 数据 、 宾 ( 旅 ) 馆 、 浴 场 住宿 人 员 数 据 、 违 法 犯罪 人 
员 数 据 库 .吸毒 人 员 数 据 库 ,执法 办 案 过 程 中 采集 的 人 员 信 息 、 违 法 犯罪 人 员 手 机 号 码 采集 
系统 、 看 守 所 释放 人 员 数 据 、 分 局 查询 人 员 数 据 、 工 作对 象 综合 信息 系统 数据 、 案 事件 信息 管 
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理 系统 数据 、 服 务 行业 从 业 人 员 IC 卡 数据 库 、 实 有 人 口 库 基础 数据 等 。 具 体外 部 数据 见 
表 10.1。 


表 10.1 外 部 数据 表 
序号 数据 类 型 数据 内 容 
人 员 信 息 、 上 网 时 间 、 下 网 时 间 、 网 吧 名 称 、 网 吧 地 址 、 所 属 
派出 所 、 经 营 性 质 
人 员 信 息 、 入 住 时 间 、 退 房 时 间 、 场 所 名 称 、 场 所 地 址 、 所 属 
派出 所 ,企业 名 称 \ 营 业 范 围 
违法 犯罪 人 员 数 据 库 I 
4 吸毒 人 员 数 据 库 人 员 信 息 , 涉 毒 类 型 .是 否 戒毒 、 和 人 所 时 间 、 出 所 时 间 
5 执法 办 案 过 程 中 采集 的 人 员 信 息 | 人 员 信 息 .采集 地 点 .采集 事由 ,处 置 结果 
全 市 进 看 守 所 人 员 数 据 、 全 市 进 治安 拘留 所 人 员 数 据 、 全 
6 看 守 所 释放 人 员 数 据 市 刑 释 解 教 人 员 数 据 、 全 市 刑 释 强 戒 人 员 数 据 ,全 市 吸毒 
人 员 数 据 , 各 业务 管理 确定 的 工作 对 象 信息 
了 违法 犯罪 人 员 手 机 号 码 采 集 系统 | 人 员 信息 .案件 类 型 .定罪 时 间 .手机 号 码 信息 








1 网 吧 上 网 人 员 的 数据 





2 宾 ( 旅 ) 馆 浴场 住宿 人 员 数 据 






































8 分 局 查询 人 员 数 据 人 员 信 息 .排查 时 间 、 查 询 事由 、 人 员 标 签 

9 工作 对 象 综合 信息 系统 数据 人 员 信 息 、 工 作对 象 类 型 ,嫌疑 事由 、 采 集 时 间 \ 处 置 结果 
10 案 事 件 信息 管理 系统 数据 案件 类 型 ,案件 时 间 、 地 点 ,涉及 人 员 案件 处 置 结果 

11 服务 行业 从 业 人 员 IC 卡 数据 库 | 人 员 信 息 、 所 属 单位 ,管控 类 别 , 涉 罪 情 况 

12 实 有 人 口 库 基 础 数据 姓名 ,身份 证 ,性 别 、 年 龄 户籍 地 .居住 地 职业、 学历 


导 和 过程 是 将 数据 原样 全 部 以 字符 串 类 型 导入 到 数据 库 , 表 结构 与 源 文 件 结构 基本 一 
样 ,增加 数据 源 和 导入 时 间 两 个 字段 。 导 入 完成 后 记录 日 志 ,并 将 源 文件 从 文件 缓冲 区 移动 
到 文件 备份 区 。 导 入 如 果 失 败 , 则 记录 错误 日 志 , 并 向 接 入 监控 模块 发 送 警 报 ,将 源 文件 从 
文件 缓冲 区 移动 到 文件 备份 区 。 全 部 执行 完毕 , 则 开始 导入 下 一 个 文件 ,直到 文件 缓冲 区 没 
有 文件 为 止 。 

进行 挖掘 的 数据 必须 满足 完整 性 、 精 确 性 一致 性 等 要 求 , 才 可 以 作为 数据 模型 输入 的 
字段 值 。 由 于 项 目的 数据 来 自 多 个 生产 系统 ,不 同 的 系统 其 数据 质量 不 一 ,存在 数据 代码 
化 ,关键 属性 值 缺失 或 无 法 拆 分 聚合 数据 等 情况 ,各 数据 源 的 原始 数据 并 未 经 过 加 工 和 处 
理 ,需要 对 数据 进行 预 处 理 , 主 要 工序 包括 数据 转换 、 缺 损 值 处 理 、 重 复数 据 处 理 、 品 声 数 据 
整理 等 。 

首先 ,进行 数据 格式 转换 ,将 数据 准备 库 中 的 原始 数据 转换 成 对 应 的 数据 类 型 ,并 存储 
在 缓冲 库 中 ,在 数据 准备 库 中 根据 数据 类 型 分 为 数值 型 或 日 期 型 ,其 他 数据 类 型 均 设 置 为 
NVARCHAR2(2000)。 例 如 ,对 “ 宾 旅 馆 入 住 时 间 ” 等 日 期 型 字段 统一 进行 日 期 格式 化 处 
理 , 统 一 处 理 为 YYYY-MM-dd hh:mm:ss. ff” 形 式 。 缓 冲 区 数据 库 的 字段 类 型 根据 数据 
含义 已 经 设 定 成 了 相应 的 数据 类 型 。 

先 对 缓冲 库 中 的 数据 表 进 行 扫描 ,如 果 有 数据 , 则 循环 处 理 每 行 数 据 , 获 取 到 行 数据 后 ， 
将 每 个 字段 的 值 取出 逐个 转换 ,如 果 全 部 没有 错误 , 则 将 该 行 数据 插 入 到 主题 库 中 ,并 记录 
操作 日 志和 将 原始 数据 移动 到 备份 表 中 ; 如 果 有 错误 , 则 记录 错误 日 志和 将 原始 数据 移动 
到 错误 表 中 。 缓 冲 库 是 数据 接 人 的 缓冲 区 域 ,原始 数据 经 过 数据 类 型 转换 后 存储 在 本 数据 
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库 中 ,数据 预 处理 的 全 过 程 ( 数 据 清理 数据 整合 .数据 拆 分 .数据 转换 ) 将 发 生 在 这 个 数据 
库 中 。 

对 于 数据 质量 较 差 的 字段 或 进行 清洗 ,或 直接 抛弃 。 在 源头 数据 中 还 发 现 因 采 集 质量 
问题 而 导致 的 字段 值 缺 失 或 者 是 因 设计 未 考虑 完整 而 导致 的 部 分 字段 值 , 因 在 记录 中 比重 
较 小 ,所 以 在 数据 清洗 过 程 中 我 们 忽略 该 记录 值 。 其 他 情况 缺失 的 字段 值 采 用 同类 属性 平 
均值 进行 填充 ,或 者 可 以 采用 强 关联 字段 的 值 进 行 填补 。 例 如 ,对 “违法 犯罪 人 员 出 所 时 间 ” 
值 是 空 的 数据 进行 统一 处 理 , 赋 值 为 “入 所 时 间 ” 加 “刑期 /拘留 时 间 ”; 对 于 模型 重要 性 较 小 
的 变量 ,直接 进行 剔除 操作 ; 对 于 重要 性 较 高 的 变量 ,采取 重要 性 由 高 到 低 的 方式 进行 
筛选 。 

对 数据 噪声 的 处 理 , 主 要 采用 平滑 处 理 的 方式 。 具 体 而 言 ,首先 对 可 以 选择 适宜 合并 的 
数据 , 取 该 类 数据 的 中 间 值 .边界 值 . 平 均值 等 ,对 噪声 数据 进行 平滑 处 理 , 并 对 背离 度 较 大 
的 数据 予以 吻 出 。 在 实际 处 理 过 程 中 ,对 于 噪声 处 理 ,采用 回归 方法 进行 插值 处 理 ,对 网 吧 
上 网 次 数 进行 波动 分 析 , 其 存在 连续 区 间 偏 移 均值 较 高 超过 75% 的 情况 ,采用 回归 方法 将 
波动 率 偏 移 较 大 的 属性 值 调 低 至 30% 以 内 。 

在 重复 数据 处 理 方面 ,由 于 外 部 数据 源 存在 相同 业务 含义 数据 重 又 的 情况 ,如 违法 犯罪 
库 与 工作 对 象 综合 信息 系统 数据 库 中 关于 案情 描述 数据 出 现 记录 或 属性 重复 的 情况 ,原因 
是 两 种 库 之 间 存 在 继承 关系 ,针对 该 类 情况 制订 清理 规则 ,明确 了 重复 数据 情况 下 以 违法 犯 
罪 库 为 优先 ,保留 该 库 数据 并 删除 其 他 相同 数据 记录 。 

系统 整合 的 数 十 个 外 部 数据 源 中 的 属性 字段 值 可 以 组 成 数 以 百 计 其 至 更 多 的 可 用 变 
量 , 其 中 大 部 分 变量 与 本 次 数据 挖掘 工作 无 关联 ,如 何 适当 地 抽取 变量 用 于 模型 的 创建 是 非 
常 重要 的 。 首 先 , 在 系统 初始 变量 基础 上 进行 相关 性 分 析 。 例 如 ,分 析 违 法 犯罪 数据 时 ,发 
现 抓 捕 时 间 与 案件 受理 时 间 相关 性 较 强 ,因此 去 除了 案件 受理 时 间 的 初始 变量 ; 网 吧 统 计 
数据 中 上 下 网 合计 次 数 与 上 网 次 数 、 下 网 次 数 相 关 性 较 强 ,因此 去 除 上 下 网 合计 次 数 等 变 
量 。 因 此 最 后 得 到 清理 后 的 初始 变量 为 67 个 。 然 后 ,根据 数据 理解 和 专家 讨论 ,完成 了 衍 
射 变量 的 添加 。 在 网 吧 主 题 数 据 中 ,增加 近 三 个 月 上 网 时 间 在 0 点 之 后 6 点 之 前 的 次 数 、 近 
三 个 月 下 网 时 间 在 0 点 之 后 6 点 之 前 的 次 数 等 变量 ; 在 人 口 基本 主题 数据 中 ,增加 年 龄 是 
否 在 18 一 40 岁 、 是 否 居住 于 来 沪 人 员 倒 挂 及 抓获 对 象 排名 最 多 的 居 、 村 等 变量 ; 在 违法 信 
息 主题 数据 中 增加 违反 犯罪 前 科 次 数 、 涉 及 案件 起 数 等 变量 。 最 后 得 到 的 变量 个 数 为 
20 个 。 

高 危 人 员 变 量 筛选 是 在 初步 变量 提取 的 基础 上 实现 模型 构建 数据 准备 的 重要 过 程 。 基 
于 变量 筛选 中 的 重要 性 分 析 方法 进行 检验 和 筛选 。 

在 初始 生成 的 20 个 变量 的 基础 上 进行 变量 的 筛选 ,其 主要 思想 是 对 变量 进行 重要 性 分 
析 。 处 理 过 程 主 要 包括 删除 强 相关 性 变量 以 及 样本 数量 较 少 的 对 象 。 然 后 ,通过 IBM 
SPSS Modeler 软件 的 特征 选择 组 件 进行 二 次 筛选 ,在 分 析 方 法 上 使 用 似 然 比 进行 特征 重要 
性 分 析 。 

通过 对 缺失 值 最 大 百分比 .单个 类 别 中 记录 最 大 百分比 .最 大 类 别 数 .最 小 变异 系数 .最 
小 标准 差 等 值 的 设 定 , 划 分 出 重要 边际、 不 重要 等 类 别 的 特征 变量 。 

在 变量 重要 性 分 析 中 ,类 别 预测 变量 p 值 (重要 性 ) 的 基础 为 * 似 然 比 (LR)”。 似 然 比 指 
标 可 以 反映 变量 真实 性 ,属于 同时 反映 特异 度 与 灵敏 度 的 复合 指标 。 在 本 检验 下 , 似 然 比 可 








第 10 章 基于 逻辑 回归 模型 的 高 危 人 员 分 析 

















以 分 为 犯罪 似 然 比 与 非 犯 罪 似 然 比 。 犯 罪 似 然 比 为 检验 结果 其 高 危 人 员 犯 罪 率 和 高 危 人 员 
非 犯 罪 率 之 比 , 即 检验 正确 判断 高 危 人 员 最 后 成 为 犯罪 人 员 的 可 能 性 与 检验 错误 可 能 性 的 
比值 。 其 比值 越 大 , 则 检验 结果 判断 为 高 危 人 员 成 为 犯罪 人 员 的 概率 越 大 。 通 过 该 方法 实 
现 了 对 特征 变量 的 筛选 ,以 此 得 到 了 最 终 的 变量 清单 ,如 图 10. 1 所 示 。 
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图 10.1 筛选 后 变量 数据 表 


完成 了 对 数据 变量 的 筛选 工作 后 ,后 续 将 在 人 员 轨 迹 数 据 记 录 中 抽取 一 个 区 间 段 的 数 
据 作为 样本 数据 进行 模型 的 训练 ,创建 高 危 人 员 评 分 模型 。 对 抽取 的 56 960 条 人 员 轨 迹 数 
据 进行 样本 分 析 、 审 核 和 可 用 性 研究 ,该 变量 结果 数据 基本 完善 ,质量 较 高 ,可 进行 后 续 模型 
的 训练 。 


10.3 建立 模型 


逻辑 回归 是 广义 线性 回归 分 析 模 型 的 一 种 ,在 业界 已 经 得 到 相当 广泛 的 使 用 。 它 具有 
易 解 释 、 易 使 用 等 优势 特点 ,在 公安 实际 业务 中 得 到 充分 体现 。 基 于 胃 辑 回归 算法 的 高 危 人 
员 评 分 模型 通过 对 人 员 的 基本 状况 ,行为 轨迹 、 前 科 情 况 等 海量 数据 全 面 地 予以 分 析 和 挖 
气 , 在 数据 中 找寻 规律 ,并 以 此 作为 核心 来 衡量 人 员 的 高 危 程度 ,为 高 危 人 员 防 控 提 供 了 重 
要 基础 。 

高 危 分 析 主 要 完成 分 析 人 员 动 态 轨迹 数据 与 人 员 犯 罪 风 险情 况 之 间 的 规律 ,从 而 实现 
对 人 员 高 危 风 险 的 科学 管控 。 在 轨迹 数据 处 理 的 基础 上 ,使 用 逻辑 回归 算法 创建 高 危 人 员 
评分 模型 ,实现 以 高 危 人 员 评 分 模型 为 计算 基础 ,得 到 对 象 人 员 的 高 危 风险 评分 ,并 将 该 高 
危 评分 情况 应 用 至 高 危 人 员 管 理 业务 中 。 这 里 主要 探讨 基于 逻辑 回归 算法 的 高 危 人 员 评 分 
模型 的 创建 检验 以 及 高 危 风险 分 值 转换 等 功能 的 设计 ,并 对 该 应 用 场景 下 使 用 其 他 算法 模 
型 效果 进行 比较 和 分 析 。 

完成 变量 特征 筛选 后 , 下面 就 可 以 进行 模型 创建 工作 了 。 高 危 人 员 评 分 模型 采用 IBM 
SPSS Modeler 18. 0 软件 创建 模型 。 高 危 人 员 评 分 模型 构建 流程 如 图 10. 2 所 示 。 
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DEP 分 析 DEP 分 析 
图 10.2 高 危 人 员 评分 模型 构建 流程 


首先 从 动态 轨迹 数据 库 中 的 变量 表 (Label_data) 数 据 对 象 中 获取 人 员 基 本 信息 、 网 吧 
宾 旅 馆 信息 ,违法 犯罪 信息 ,关联 信息 等 衍生 变量 数据 ,该 数据 表 在 之 前 的 ETL 工作 和 变量 
筛选 过 程 中 已 经 清理 完毕 ,该 表 数 据 选择 的 是 2012 一 2015 年 看 守 所 、 拘 留 所 入 所 人 员 , 即 这 
4 年 违法 犯罪 的 人 员 信 息 ,共计 样本 数 56960 条 。 

1. 变量 加 载 

完成 数据 加 载 后 ,使 用 变量 数据 筛选 工具 进行 了 特征 变量 的 筛选 。 此 外 ,将 DG( 是 否 
存在 吸毒 史 ) .JB( 有 无 正当 职业 ) 等 字段 标记 为 名 义 类 型 ,汇总 数据 中 的 编号 、 身 份 证 号 等 
字段 对 分 析 没 有 意义 ,所 以 将 其 过 滤 去 除 。 

2. 异常 记录 处 理 

应 用 异常 检测 节点 对 记录 中 的 异常 记录 进行 过 滤 , 分 为 3 个 对 等 组 ,分 别 得 到 41 条 、 
233 条 、305 条 记录 ,并 将 这 些 记 录 在 流程 中 舍弃 。 

3. 数据 分 区 

为 保证 模型 训练 的 准确 度 ,选择 多 个 数据 样本 分 区 方式 , 原 数据 中 ,犯罪 人 员 与 未 犯罪 
人 员 之 比 为 2 : 3, 因 为 数据 取样 较 好 .所 以 犯罪 人 员 信 息 因为 样本 少 而 出 现 淹没 的 情况 可 
能 性 较 小 。 选 择 数据 分 区 为 训练 分 区 占 40% ,测试 分 区 占 30% ,验证 分 区 占 30%。 

4. 模型 自动 选择 

使 用 “自动 分 类 器 ”节点 并 应 用 分 区 数据 进行 模型 初 选 ,按照 总 体 精确 度 进行 排序 ,在 
“专家 ”选项 卡 中 ,所 有 模型 按照 默认 参数 设置 ,得 到 C5.0、 类 神经 网 络 、 逻 辑 回 归 3 个 具有 
较 高 总 体 精确 性 的 模型 ,如 图 10. 3 所 示 。 

由 于 类 神经 网 络 在 原理 解释 方面 具有 较 多 局 限 ,无 法 量化 说 明 其 模型 的 依据 和 原因 ,所 
以 在 本 例 中 不 作 进一步 分 析 和 应 用 ,而 逻辑 回归 具有 较 强 的 可 操作 性 ,所 以 优先 使 用 逻辑 回 
归 作 为 标准 模型 。 

高 危 人 员 评 分 中 的 “是 否 犯罪 ”属于 二 项 式 分 类 .因此 在 回归 过 程 中 系统 采取 二 项 式 方 
式 , 并 选择 向 前 步 进 法 逐步 应 用 各 输入 变量 .同时 选取 了 专家 模式 进行 参数 的 调整 ,对 训练 
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排序 方式 (9)。 [ER @ 升 矿 O 降序 ET 

四 | 全 天敌 | 二 主 w |sanao | 将 sw |enoraas | 让 
图 | 入 C51 <1 112,843.3... 40 2.424 98.783 17 0.997 
a 加 四 | 今 类 神经 网 络 1 ”< 1 111,450.0 40 2.423 98.292 18 0.998 
"加 时 | 多 Logistic 回归 让 多 | 107,360.0 a 2.423 | 96.856 | 到 0.993 


图 10.3 高 危 人 员 评 分 模型 构建 流程 


模式 进行 进一步 的 设置 ,在 收敛 性 条 件 设 置 中 选择 最 大 迭代 数 为 25, 最 大 逐步 二 分 法 设置 
为 5。 在 模型 输入 中 色 选 “符合 矩阵 ”绩效 评估 ”选项 ,运行 后 得 到 模型 结果 ,如 图 10. 4 
所 示 。 














所 输出 字段 DEP 的 结果 







$ 单 狗 模型 
| 此 比较 SL-DEP 与 DEP 
号 区 工 凋 而 Z 计 斌 FE 
正确 32,740 96.83% 10,903 96,86% 10,954 96.75; 
1.073 3.17% 35; 3.25 
总 计 33,813 11256 
导 SL-DEP 的 符合 答 降 ( 行 表示 实际 值 ) 
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图 10.4 高 危 人 员 分 析 模 型 


分 析 模 型 结果 ,从 准确 率 来 看 ,具体 分 析 该 高 危 人 员 评分 模型 ,其 中 对 测试 样本 的 准确 
性 分 析 为 96.75%% ,属于 犯罪 人 员 的 准确 性 为 95%% ,不 属于 犯罪 人 员 的 准确 性 为 98. 2%。 
构建 后 的 高 危 人 员 评 分 模型 如 图 10. 5 所 示 。 

可 以 从 “方程 中 的 变量 " 表 中 构建 最 终 的 拟 合 方程 式 , 其 中 正 负 号 表示 的 是 正 相 关 和 负 
相关 ,在 显著 性 指标 中 除了 ED(5) 之 外 , 均 具 有 较 高 的 显著 性 。 该 拟 合 方程 表示 了 对 象 人 
员 存在 犯罪 可 能 的 几率 的 自然 对 数 ,应 用 该 方程 可 完成 高 危 人 员 的 高 危 程度 判定 ,判定 如 果 
大 于 目标 阔 值 , 则 表明 该 对 象 人 员 可 能 存在 犯罪 的 可 能 性 ,反之 , 则 表明 犯罪 概率 可 能 性 小 。 

通过 拟 合 方程 可 以 看 出 ,对 象 人 员 犯 罪 与 不 犯罪 之 比 的 自然 对 数 与 教育 程度 .正当 职业 
等 变量 成 反比 ,与 户籍 地 高 危 地 区 、 近 三 月 住宿 频率 、0 至 6 时 入 住 次 数 .前 科 数 、 近 三 月 上 
网 频率 .0 至 6 时 上 网 次 数 等 变量 成 正比 , 即 表 明 受 教育 程度 越 高 ,正当 工作 情况 存在 犯罪 
可 能 性 越 小 ,而 户籍 地 属于 高 危 地 区 ,前科 劣迹 ,凌晨 上 网 及 人 住 频率 出 现 越 高 ,其 犯罪 可 能 
性 越 大 。 
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分 类 表 
EE 
DEP 
[00 | TO | 正确 百分比 


模型 摘要 


EE 


366 98.2 
13321 95.0 








ED(1) 
ED(2) 
ED(3) 
ED(4) 
ED(5) 
AG18t40(1) 
JB(1) 
HIA(1) 
HA(1) 
HT 
HTOt6 
CR 
IC(1) 

IB 
IBINOt6 
IBOUOt6 
IBOT 
DG() 
Vv 
PT(1) 
TS(1) 
TSOtS 


步 DEP 0 19419 
0 707 
总 体 百分比 





方程 中 的 变量 


617.295 
150.522 
234.839 
303.553 
156.757 
1.880 
138.283 
275.359 
218.471 
109.208 
1688.316 
1013.866 
389.779 
27.108 
1729.286 
731.418 
14.209 
48.238 
85.352 
51.434 
66.476 
72.106 
1053.603 
733.549 




















下 限 





EXP(B) 的 95% 置信 区 间 


限 


8.882 
11.801 
18.699 

8.600 

1.106 

.468 
3.702 
.380 
.507 
1.177 
1.184 
141.278 

2.428 

1.323 
88.471 

1.347 

-865 
7.071 
.768 
5.555 
4.546 
.001 





a. 在 步骤 1 输入 的 变量 : ED, AG18t40, JB, HIA, HA, HT, HTOt6, CR, IC, IB, IBINOt6, IBOUOt6, IBOT, DG, IV, PT, TS, 
下 


S0t5 。 


图 10.5 构建 后 的 高 危 人 员 评 分 模型 


目标 : DEP 





[1 |6319.490° | .690| .929 | 








0.2 


04 0.6 
图 10.6 模型 预测 变量 重要 性 结果 
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从 预测 的 重要 性 来 看 ,最 近 三 个 月 0 至 6 时 上 网 次 数 .最 近 三 个 月 上 下 网 次 数 、 最 近 三 
个 月 住宿 次 数 比较 关键 ,其 次 是 最 近 三 个 月 查询 系统 的 时 间 段 在 0 至 5 时 之 间 、 犯 罪 前 科 次 
数 . 最 近 三 个 月 人 住 时 间 在 0 至 6 时 之 间 的 次 数 .文化 程度 ,这 项 的 重要 性 依次 减少 ,其 他 如 
户籍 地 是 否 为 高 危 地 区 年龄 在 18 至 40 岁 之 间 是 否 存在 于 分 局 查询 系统 中 这 几 项 影响 较 
弱 , 剩 下 的 其 他 因素 的 重要 性 极 少 ,几乎 不 重要 。 

从 结果 中 可 以 看 到 经 常 在 非 正常 时 间 上 网 .住宿 的 人 危险 程度 较 高 ,需要 重点 关注 此 类 
人 和 群 ,此 外 也 要 关注 那些 有 过 前 科 的 较 低 文化 程度 的 人 员 , 其 具有 较 大 重新 犯罪 的 可 能 性 。 
职业 性别 .居住 小 区 是 否 为 来 沪 人 员 倒 挂 和 抓获 对 象 排名 靠 前 的 居 、 村 等 因素 并 不 重要 ,对 
结果 的 影响 程度 有 限 。 

完成 模型 训练 后 ,接着 需要 对 模型 进行 检验 评估 ,利用 SPSS Modeler 软件 增加 评估 和 
分 析 的 节点 来 实现 。 

5. 模型 评估 

采用 分 析 节 点 的 模型 准确 率 分 析 功 能 ,进行 模型 准确 性 分 析 。 根 据 评估 功能 的 结论 ,对 
于 不 同 的 分 区 样本 ,模型 的 正确 率 达到 了 较 高 的 分 值 ,用 于 验证 的 样本 中 , 共 11 322 条 数据 
样本 ,其 中 判定 正确 样本 数 为 10 954 条 , 占 总 数 的 96.75%; 错误 样本 数 为 368 条 , 占 总 数 
的 3.25%; 具体 而 言 ,对 犯罪 人 员 的 判别 准确 度 达 到 了 95% ,对 非 犯罪 人 员 的 判断 准确 度 
达到 了 98.2%。 即 对 于 验证 而 言 ,对 某 人 是 否 为 高 危 人 员 采 取 相 关 关 注 措施 ,判断 结果 的 
准确 性 可 以 达到 95% ,对 于 该 类 人 员 可 以 采取 相应 的 管理 手段 进行 防 控 , 在 实际 业务 中 将 
大 大 提高 公安 业务 人 员 的 管理 手段 和 管理 能 力 。 

在 模型 效果 分 析 中 采用 ROC 曲线 ,如 图 10. 7 所 示 , 曲 线 按 对 象 评分 高 低 从 低 到 高 排 
列 , 纵 轴 是 高 危 人 员 的 对 象 累积 比例 , 横 轴 是 非 高 危 人 员 的 对 象 累积 比例 ,ROC 曲线 中 下 面 
面积 表示 模型 的 分 辨 力 。 其 面积 越 大 ,分 辨 能 力 越 强 。 从 分 析 图 10. 7 中 可 以 看 出 ,本 系统 
模型 的 分 辨 能 力 较 好 。 





SL-DEP 
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图 10.7 高 危 人 员 评 分 模型 ROC 分 析 图 
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在 实际 应 用 过 程 中 ,由 于 逻辑 回归 模型 得 出 的 评分 为 概率 系数 ,在 应 用 中 有 一 定 的 解释 
难度 ,因此 需要 将 概率 形式 的 分 数 转 换 为 数值 型 的 分 数 ,在 系统 中 ,系统 利用 线形 方程 对 其 
进行 转换 ,使 用 计算 公式 如 下 : 

Score 一 一 log(odds) * factor 十 offset 

利用 该 公式 ,系统 可 以 将 高 危 人 员 分 数控 制 在 一 定 范围 内 ,基准 分 取 为 600, 其 odds 是 
1 : 1, 即 每 当 分 数 增加 15 分 ,odds 会 变 成 原来 的 2 倍 .并 设 定 offset 一 600。 

通过 使 用 逻辑 回归 构建 的 高 危 人 员 评分 模型 可 以 得 出 logit(P), 即 对 象 人 员 犯 罪 的 可 
能 概率 与 不 发 生 犯 罪 的 可 能 概率 之 比 ,通过 公式 Factor 一 15/log(2) 将 logit(P) 转 化 为 对 象 
人 员 的 高 危 评 分 。 越 高 的 评分 代表 对 象 人 员 犯 罪 风 险 度 较 高 , 越 低 的 评分 代表 其 范围 风险 
较 小 。 系 统 评分 模型 分 值 范围 在 400 一 850 分 区 间 的 评分 模型 ,600 分 为 中 间 分 ,小 于 600 分 为 
高 危 程度 较 低 对 象 , 可 以 暂 不 采用 管控 措施 ; 大 于 600 分 为 高 危 程度 较 高 对 象 ,需要 采取 关 
注 和 管控 等 管理 措施 ,加强 监管 和 防 控 。 

为 保证 基于 逻辑 回归 的 高 危 人 员 评 分 模型 的 算法 有 效 性 ,将 对 其 与 其 他 算法 的 计算 结 
果 进 行 比 对 和 分 析 。 在 该 分 类 业务 场景 中 ,还 可 以 采用 决策 树 与 SVM, 本 节 对 3 种 算法 构 
建 的 高 危 人 员 评 分 模型 进行 比较 。 

采用 已 构建 高 危 人 员 评 分 模型 使 用 的 数据 样本 ,在 数据 理解 ,数据 处 理 、 变 量 管理 
等 方式 均 相 同 的 条 件 下 ,采用 IBM SPSS Modeler 软件 ,实现 和 完成 对 基于 C5. 0 决策 树 
和 SVM 算法 的 高 危 人 员 评 分 模型 。 模 型 构建 后 ,对 模型 进行 检验 分 析 。 以 下 对 两 种 
模型 的 准确 性 .运行 效率 以 及 可 解释 性 进行 比较 和 分 析 , 其 模型 性 能 验证 结果 如 图 10. 8 
所 示 。 

采用 C5.0 决策 树 和 SVM 算法 构建 高 危 人 员 评 分 模型 后 ,通过 分 析 模 型 ,得 出 最 后 的 
准确 率 结果 中 ,逻辑 回归 算法 都 是 最 高 的 。 其 中 ,C5. 0 决策 树 的 整体 准确 率 和 分 类 准确 率 
都 高 于 逻辑 回归 算法 ; 而 SVM 虽然 在 分 类 准确 率 中 对 于 非 犯 罪人 员 的 判断 准确 率 较 高 ,但 
是 其 AUC 指标 相差 很 小 ,分 别 为 0.994 和 0. 995 ,说 明 两 者 的 准确 率 等 评价 指标 差别 不 大 ， 
均 可 满足 对 高 危 人 员 判 断 的 要 求 ,但 是 ,SVM 在 可 解释 性 上 略 差 于 逻辑 回归 ,所 以 在 这 两 种 
方法 之 间 选 择 ,仍然 选择 逻辑 回归 模型 作为 此 案例 的 应 用 模型 。 

逻辑 回归 和 C5. 0 决策 树 在 模型 理解 上 都 比较 有 优势 .其 中 逻辑 回归 对 于 目标 变量 与 
自 变量 之 间 过 程 分 析 明 确 , 并 且 对 变量 值 的 权 值 有 比较 清晰 的 表达 ; C5. 0 决策 树 构建 过 程 
易于 理解 ,但 是 随 着 变量 的 增多 ,其 节点 将 会 大 幅 增长 ,对 未 来 模型 的 理解 会 有 一 定 难 度 。 
SVM 算法 的 理论 较 复 杂 , 对 于 用 户 而 言 ,解释 和 理解 具有 一 定 的 困难 。 因 此 ,在 公安 高 危 人 
员 管 理 的 业务 中 ,需要 业务 人 员 和 相关 领导 快速 理解 模型 ,在 这 一 点 上 逻辑 回归 算法 占有 明 
显 的 优势 。 

据 此 可 以 综合 判定 出 ,逻辑 回归 算法 在 预测 准确 性 .运行 效率 以 及 可 解释 性 方面 都 
具有 一 定 的 优势 ,因此 基于 逻辑 回归 构建 的 高 危 人 员 评 分 模型 是 满足 高 危 人 员 管 理 业务 
要 求 的 。 
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号 输出 字段 DEP 的 结果 
对 单独 模型 
， 旧 比 较 $5-DEP 与 DEP 
1 





2 测试 3 验证 





33,330 98.57% 10,993 97.66% 11,026 97.3 
错误 483 1.43% 263 2.34% 296 2.61! 
总 计 33,813 11.256 11,322 
息 $S-DEP 的 符合 矩阵 二 






































































| [号 区 工区 训 EE ER 
模型 AUC Gin AUC Gin AUC Cini 
$5-DEP 0.998 0.997 0.997 0.993 0.995 0.991 
(a) SVM 模型 结果 
号 输出 字段 DEP 的 结果 
和 单独 模型 
| 自 比 较 $C-DEP 与 DEP 
| | 号 区 工场 证 EE 3 台 证 
| 正确 33,331 98.57% 11,062 “98.28% 11,139 98.38; 
| 氏 讽 482 1.43% 194 1.72% 183 1.62 
| 总 计 33,813 11.256 11,322 
| $C-DEP 的 符合 矩阵 ( 行 表示 实际 值 ) 
十 培 调 2 测试 子 蔓 证 
机 型 Auc Gni Auc Gini AUC Gini 
SC-DEP 0.996 0.992 0.994 0.988 0.994 0.988| 

















(b) C5.0 模 型 结果 
10.8 模型 性 能 验证 结果 


第 了 也 章 


卷 积 神经 网 络 在 音频 质量 
评价 领域 的 应 用 


深度 学 习 是 机 器 学 习 的 一 个 重要 分 支 ,是 目前 数据 科学 领域 中 比较 热门 的 研究 方向 ,其 
起 源 于 神经 网 络 , 随 着 近 几 年 计算 能 力 的 提升 和 大 数据 的 快速 应 用 逐渐 发 展 起 来 ,人 工 智 能 
领域 的 很 多 应 用 都 采用 了 深度 学 习 相 关 的 理论 和 技术 ,特别 是 在 自然 语言 处 理 、 计 算 机 视 
觉 . 图 像 识别 .场景 分 类 等 方面 成 果 显 著 。 人 工 智 能 的 应 用 获得 大 众 普 遍 关注 后 ,深度 学 习 
相关 技术 已 成 为 数据 分 析 人 员 的 必修 目标 之 一 。 本 章 主要 从 深度 学 习 的 理论 基础 、 发 展 历 
程 ,常用 算法 等 几 个 方面 对 其 进行 介绍 ,并 结合 案例 说 明 其 在 音频 质量 评价 方面 的 应 用 。 


11.1 深度 学 习 基 础 


本 节 主 要 阐述 深度 学 习 相关 理论 基础 ,对 比 人 工 神经 网 络 的 特点 说 明 深 度 学 习 的 基础 
概念 和 训练 过 程 , 通 过 介绍 深度 学 习 的 发 展 历程 可 以 从 纵向 角度 来 把 握 深度 学 习 的 发 展 脉 
络 , 可 对 未 来 发 展 趋势 有 更 深刻 的 理解 。 另 外 ,本 节 还 介绍 了 目前 主流 的 技术 框架 及 其 特 
点 ,可 以 在 实践 中 按 业 务 需求 选择 合适 的 框架 进行 应 用 。 

基于 反 向 传播 算法 (Back Propagation,BP) 的 传统 人 工 神经 网 络 是 一 种 浅 层 学 习 模 型 ， 
由 于 运算 能 力 的 限制 ,往往 只 有 输入 层 、 隐 含 层 、 输 出 层 ,容易 产生 过 拟 合 , 泛 化 能 力 较 差 。 
深度 学 习 的 基本 思想 是 通过 使 用 多 个 层 . 某 一 层 作为 下 一 层 的 输入 ,来 实现 对 输入 信息 的 分 
级 表达 ,这 参考 了 人 类 的 分 层 处 理 系 统 , 可 以 让 机 器 自动 地 学 习 有 用 的 特征 ,采用 多 层 神 经 
网 络 的 结构 来 抽象 特征 ,从 而 发 现 更 多 的 数据 分 布 特点 。 
深度 学 习 的 目标 是 模拟 人 类 大 脑 进行 学 习 , 通 过 多 个 层 对 特征 进行 学 习 , 特 征 表 示 的 粒 
度 要 具有 一 定 的 结构 性 ,不 仅 在 横向 的 维度 中 具有 关联 ,而 且 要 在 纵向 抽象 时 具有 意义 ,从 
特征 的 稀 玻 编码 逐渐 选 代 抽象 .复杂 度 和 抽象 度 逐 层 递增 ,而 抽象 的 层次 越 高 ,其 类 别 越 少 ， 
也 就 更 易于 区 分 。 可 以 说 ,深度 学 习 就 是 一 种 非 监督 式 特征 学 习 的 过 程 。 
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深度 学 习 的 训练 过 程 是 按照 分 层 训练 的 机 制 , 自 底 向 上 进行 非 监督 特征 学 习 , 获 得 各 层 
的 参数 ,也 可 以 认为 是 对 相应 特征 进行 学 习 的 过 程 。 当 然 , 其 偏差 也 会 逐 层 传递 。 在 达到 最 
顶层 之 后 对 比 结果 标签 ,对 误差 自 顶 向 下 逐 层 传输 ,进行 有 监督 学 习 ,对 各 层 中 的 参数 进行 
微调 ,通过 多 次 迭代 调整 ,使 整个 网 络 的 参数 具有 较 好 的 区 分 效果 。 


11.1.1 深度 学 习 的 发 展 过 程 


人 工 神经 网 络 经 过 最 近 几 十 年 的 发 展 , 从 1943 年 心理 学 家 McCulloch 和 数学 家 Pitts 
参考 生物 神经 元 的 结构 发 明了 神经 元 模型 之 后 ,从 单 层 神经 网 络 到 两 层 网 络 ,再 到 多 层 神经 
网 络 , 随 着 层 数 的 增加 和 激活 函数 的 不 断 演变 发 展 ,其 非 线性 拟 合 能 力 不 断 加 强 。 随 着 计算 
的 运算 能 力 和 数据 量 几何 级 的 增长 ,以 及 更 多 训练 模式 的 引入 ,神经 网 络 在 人 工 智 能 领域 发 
挥 着 越 来 越 大 的 作用 。 

日 本 的 Fukushima 于 1980 年 第 一 次 提出 基于 感受 野 的 模型 。1998 年 ,由 Lecun 等 人 
提出 的 LeNet-5 卷 积 神经 网 络 模型 用 于 对 手写 字母 进行 文字 识别 , 它 是 基于 梯度 的 反 向 传 
播 算法 对 模型 进行 训练 ,将 感受 野 理论 应 用 于 神经 网 络 中 。 

2006 年 ,多 伦 多 大 学 的 G. E. Hinton 等 提出 深度 学 习 的 概念 。 深 度 学 习 是 一 种 多 层级 
的 深层 次 网 络 结构 的 机 器 学 习 方 法 ,主要 是 为 了 解决 传统 的 神经 网 络 很 容易 收敛 到 局 部 最 
小 值 这 一 问题 ,Hinton 提出 使 用 无 监督 预 训练 的 方法 优化 网 络 权 值 的 初 值 ,再 进行 反 向 参 
数 调整 的 方法 来 优化 网 络 性 能 。 

2010 年 ,深度 学 习 项 目 首次 获得 来 自 美 国 国 防 部 门 DARPA 计划 的 资助 ,参与 方 有 美 
国 NEC 研究 院 ,纽约 大 学 和 斯 坦 福 大 学 。 自 2011 年 起 ,谷歌 和 微软 研究 院 的 语音 识别 方向 
研究 专家 先后 采用 深度 神经 网 络 技术 将 语音 识别 的 错误 率 降低 20 儿 一 30%% ,这 是 长 期 以 来 
语音 识别 研究 领域 取得 的 重大 突破 。2012 年 ,深度 神经 网 络 在 图 像 识 别 应 用 方面 也 获得 重 
大 进展 ,在 ImageNet 评测 问题 中 将 原来 的 错误 率 降低 了 9%。2012 年 6 月 ,Andrew NG 等 
对 机 器 进行 大 量 训练 以 后 .使 其 学 会 自动 识别 猫 的 图 像 。 

2014 年 ,Ian Goodfellow 将 生成 对 抗 网 络 (Generative Adversarial Networks,GAN) 引 
入 深度 学 习 领 域 。2016 年 .GAN 热潮 席卷 AI 领域 顶级 会 议 , 从 ICLR 到 NIPS, 大 量 高 质 
量 论文 被 发 表 和 探讨 。2016 年 3 月 ,Google 公司 的 AlphaGo 战胜 韩国 顶尖 围棋 棋 手 李 世 
石 ,2017 年 1 月 4 日 ,又 以 Master 为 账号 ,在 未 公开 身份 的 情况 下 ,通过 网 上 比赛 战胜 了 中 
韩 日 台 的 顶尖 围棋 手 60 多 人 ,而 AlphaGo 采用 的 神经 网 络 技术 中 就 包括 了 卷 积 神经 网 络 
和 生成 对 抗 网 络 。 

卷 积 神经 网 络 已 经 成 为 当前 深度 学 习 领 域 的 热点 ,特别 是 在 图 像 识别 和 模式 分 类 方面 ， 
其 优势 是 共享 权 值 的 网 络 结构 .局 部 感知 (也 称 为 稀 朴 连接 ) ,降低 神经 网 络 的 运算 复杂 度 ， 
因为 减少 了 权 值 的 数量 ,并 可 以 直接 将 图 像 作为 输入 进行 特征 提取 ,避免 了 对 图 像 的 预 处 理 
和 显 式 的 特征 提取 ,可 以 进行 同步 学 习 。 与 之 相关 的 是 循环 神经 网 络 (RNN) ,长 短期 记忆 
网 络 (Long Short Term Memory networks,LSTM) 等 。 


11.1.2 深度 学 习 常 用 技术 框架 


目前 ,深度 学 习 领 域 中 的 主要 实现 框架 有 Torch、TensorFlow、Theano、Caffe、 Keras、 
MxNet、Deeplearning4j 等 ,下 面 详 细 介 绍 各 框架 的 特点 。 
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1. Torch 

Torch 是 用 Lua 语言 编写 的 带 API 的 深度 学 习 计 算 框架 ,支持 机 器 学 习 算法 ,其 核心 
是 以 图 层 的 方式 定义 网 络 , 优 点 是 包括 了 大 量 模块 化 的 组 件 , 可 以 快速 进行 组 合 ,并 且 具 有 
较 多 训练 好 的 模型 ,可 以 直接 应 用 。 此 外 ,Torch 支持 GPU 加 速 ,模型 运算 性 能 较 强 。 

Torch 虽然 功能 强大 ,但 其 模型 需要 LuaJIT 的 支持 ,对 开发 者 学 习 和 应 用 集成 都 具有 
一 定 的 障碍 ,文档 方面 的 支持 较 弱 ,对 商业 支持 较 少 , 大 部 分 时 间 需 要 自己 编写 训练 代码 。 
目前 最 新 的 Torch 是 由 Facebook 在 2017 年 1 月 正式 开放 了 Python 语言 的 API 支持 , 即 
PyTorch, 支 持 动态 可 变 的 输入 和 输出 ,有 助 于 RNN 等 方面 的 应 用 。 

2. TensorFlow 

TensorFlow 是 用 一 个 Python API 编写 的 ,通过 C/C++ 引擎 加 速 , 由 谷歌 公司 开发 并 
开源 ,影响 力 较 大 且 社 群 用 户 数量 多 ,对 应 的 教程 .资源 .社区 贡献 也 较 多 ,出 现 问题 后 更 易 
查找 解决 方案 。 它 不 止 用 于 深度 学 习 , 还 支持 强化 学 习 和 其 他 算法 的 工具 ,与 NumPy 等 库 
组 合 使 用 可 以 实现 强大 的 数据 分 析 能 力 ,支持 数据 的 并 行 运行 和 模型 的 并 行 运行 ,在 数据 展 
现 方面 ,可 以 使 用 TensorBoard 来 对 训练 过 程 和 结果 按 Web 方式 进行 可 视 化 ,只 要 在 训练 
过 程 中 将 各 项 参数 值 和 结果 记录 于 文件 中 即 可 。 

TensorFlow 的 主要 缺点 是 在 性 能 上 较 Torch 等 框架 差 一 些 ,也 比 Torch 策 重 一 些 , 较 
难 理解 ,其 动态 类 型 在 大 型 项 目 中 容易 出 错 , 不 利于 工具 化 , 且 不 提供 商业 支持 。 

3. Theano 

Theano 是 早期 的 深度 学 习 框 架 , 用 Python 编写 ,其 应 用 级 别 较 低 , 深 度 学 习 领 域 的 许 
多 学 术 研 究 者 较 多 地 使 用 它 。Theano 可 与 其 他 学 习 库 配合 使 用 ,非常 适合 数据 探索 和 研究 
活动 。 其 在 大 型 模型 上 的 编译 时 间 较 长 ,启动 时 间 较 长 ,只 支持 单个 GPU ,实际 项 目 应 用 中 
局 限 性 较 多 。 

现在 像 Keras 这 样 比较 流行 的 开源 深度 学 习 库 ,都 是 在 Theano API 的 基础 上 进行 开 
发 的 ,目前 对 Theano 感 兴趣 的 开发 者 越 来 越 少 ,与 之 相关 的 库 有 的 已 经 停止 更 新 了 ,所 以 
目前 并 不 适合 应 用 开发 人 员 使 用 。 

4. Caffe 

Caffe 是 较 早 的 一 个 应 用 较 广 的 工业 级 深度 学 习 工 具 , 将 Matlab 实现 的 快速 卷 积 网 络 
移植 到 了 C 和 C++ 平台 上 。 它 不 适用 于 文本 声音 或 时 间 序 列 数据 等 其 他 类 型 的 深度 学 习 
应 用 ,在 RNN 方面 建 模 能 力 较 差 。Caffe 选择 了 Python 作为 其 API, 但 是 模型 定义 需要 使 
用 protobuf 实现 , 如 果 要 支持 GPU 运算 ,需要 自己 用 C++/CUDA 来 实现 ,用 于 像 
GoogleNet 或 ResNet 这 样 的 大 型 网 络 时 比较 烦琐 。Caffe 代码 更 新 趋 慢 , 可 能 未 来 会 停止 
更 新 。 


5. Keras 


Keras 是 由 谷歌 软件 工程 师 Francois Chollet 开发 的 ,是 一 个 基于 Theano 和 TensorFlow 
的 深度 学 习 库 ,具有 较 直观 的 API。 这 可 能 是 目前 最 好 的 Python API, 未 来 可 能 会 成 为 
TensorFlow 默认 的 Python API, 其 更 新 速度 较 快 ,相应 的 资源 也 较 多 .受到 广大 开发 者 
追捧 。 
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6. MxNet 


MxNet 是 一 个 提供 多 种 API 的 机 器 学 习 框架 ,主要 面向 RPython 和 Julia 等 语言 ,由 
华盛顿 大 学 的 Pedro Domingos 及 其 研究 团队 管理 维护 ,具有 详尽 的 文档 ,容易 被 初学 者 理 
解 和 掌握 。 它 是 一 个 快速 灵活 的 深度 学 习 库 ,目前 已 被 亚马逊 云 服务 采用 。 

7. Deeplearning4j 

Deeplearning4j 是 用 Java 编写 的 ,所 以 可 用 性 较 好 ,对 开发 人 员 来 说 ,学 习 曲 线 较 低 , 在 
现 有 的 Java 系统 中 集成 使 用 更 加 便利 。 通 过 Hadoop、Spark、Hive、Lucene 等 这 类 的 开源 
系统 来 扩展 可 实现 无 颖 集成 ,具有 和 良好 的 生态 环境 支持 。Deeplearning4j 中 提供 了 强大 的 
科学 计算 库 ND4J, 可 以 分 布 式 运行 于 CPU 或 GPU 上 ,并 可 通过 Java 或 Scala 进行 API 对 
接 。Deeplenrning4j 与 Caffe 类 似 , 也 可 以 快速 应 用 CNN RNN 等 模型 进行 图 像 分 类 ,支持 
任意 芯片 数 的 GPU 并 行 运行 ,并 且 提 供 在 多 个 并 行 GPU 集群 上 运行 。 

Deeplearning4j 提供 了 实时 的 可 视 化 界面 ,可 以 在 模型 训练 过 程 中 查看 网 络 状 态 和 进 
展 情况 。 当 然 , 使 用 实时 查看 功能 时 将 影响 模型 训练 的 性 能 。 


11.1.3 常用 的 深度 学 习 算法 


本 节 将 详细 介绍 几 种 常见 的 深度 学 习 算法 ,包括 卷 积 神经 网 络 、 循 环 神经 网 络 、 生 成 对 
抗 网 络 (Generative Adversarial Network,GAN), 这 几 种 算法 为 深度 学 习 的 基础 算法 ,在 各 
种 深度 学 习 相关 系统 中 均 有 不 同 程度 的 应 用 。 除 此 之 外 ,目前 比较 前 沿 的 深度 学 习 算法 还 
有 自动 机 器 学 习 (Auto Machine Learning, AutoML), 其 中 代表 项 目 为 AutoML, 可 以 帮助 
我 们 尝试 各 种 不 同 的 算法 并 选择 最 佳 算 法 ,然后 进行 超 参数 调 优 .并 可 以 对 模型 结果 进行 
评估 。 

1. 卷 积 神经 网 络 

卷 积 神经 网 络 是 一 种 比较 常见 的 深度 学 习 算 法 ,是 一 种 监督 式 学 习 的 深层 神经 网 络 , 由 
于 它 稀 朴 的 网 络 结 构 ,在 层 的 数量 、 分 布 . 每 一 层 卷 积 核 的 数量 都 会 有 差异 ,结构 的 好 坏 决 定 
了 模型 运算 的 效率 和 预测 的 精确 度 。 理 解 不 同 结构 层次 的 作用 和 原理 有 助 于 设计 符合 实际 
的 深层 网 络 结构 。 

卷 积 层 和 子 采 样 层 是 特征 提取 功能 的 核心 模块 。 卷 积 神经 网 络 通常 采用 梯度 下 降 的 方 
法 ,应 用 最 小 化 损失 函数 对 网 络 中 各 节点 的 权重 参数 逐 层 调节 ,通过 反方 向 递 推 ,不 断 地 调 
整 参数 ,使 得 损失 函数 的 结果 逐渐 变 小 ,从 而 提升 整个 网 络 的 特征 描绘 能 力 ,使 网 络 的 精确 
度 和 准确 率 不 断 提高 。 

卷 积 神经 网 络 前 面 几 层 由 卷 积 层 和 子 采 样 层 交替 组 成 ,在 保持 特征 不 变 的 情况 下 减少 
维度 空间 和 计算 时 间 , 更 高 层次 是 全 连接 层 , 其 输入 是 由 卷 积 层 和 子 采样 层 提取 到 的 特征 ， 
最 后 一 层 是 输出 层 , 可 以 是 一 个 分 类 器 ,采用 逻辑 回归 .Softmax 回归 支持 向 量 机 等 进行 模 
式 分 类 ,也 可 以 直接 输出 某 一 结果 数值 。 经 典 的 LeNet-5 卷 积 神经 网 络 结构 图 如 图 11. 1 所 
示 , 其 中 包括 以 下 几 个 主要 的 层次 结构 。 

1) 卷 积 层 

通过 卷 积 层 (Convolutional Layer) 的 运算 ,可 以 将 输入 信号 在 某 一 特征 上 加 强 , 从 而 实 
现 特征 的 提取 ,也 可 以 排除 干扰 因素 ,从 而 降低 特征 的 噪声 。 
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图 11.1 经 典 的 LeNet-5 卷 积 神经 网 络 结构 图 


2) 线性 整流 层 
引入 ReLU 层 (Rectified Linear Units Layer) 的 主要 目标 是 解决 线性 函数 表达 能 力 不 
够 的 问题 。 线 性 整流 层 作为 神经 网 络 的 激活 函数 (Activation function) 可 以 在 不 改变 卷 积 
层 的 情况 下 增强 整个 网 络 的 非 线性 特性 ,在 不 改变 模型 的 泛 化 能 力 的 同时 数 倍 地 提升 训练 
速度 。 线 性 整流 层 的 函数 有 以 下 几 种 形式 : 
f(x) = max(0,7x) 
f(x) = tanh(x) 
f(zx) 一 | tanh(zx) | 
f(z) 一 (1 十 e) 一 
其 中 ,jz) 一 (1+e 一 ) 一 ,是 Sigmoid 函数 ,是 传统 的 神经 网 络 激活 函数 ,将 实数 压缩 在 0 一 
1, 这 样 就 可 以 将 其 用 于 分 类 的 操作 。 但 在 实际 梯度 下 降 中 ,容易 出 现 梯度 消失 ,导致 终止 梯 
度 传递 ,所 以 目前 主要 使 用 ReLU 函数 /(zx) 二 tanh(x) 作 为 激活 函数 ,优点 是 收敛 快 ,并 且 
计算 成 本 低 , 原 因 是 它 模仿 了 生物 学 的 原理 ,研究 表明 生物 神经 元 的 信息 编码 是 比较 分 散 和 
稀 朴 的 ,能 有 效 地 进行 梯度 下 降 和 反 向 传播 ,可 以 避免 梯度 消失 的 问题 ,同时 ,活跃 度 的 分 散 
性 使 得 网 络 的 运算 成 本 较 低 。 
3) 池 化 层 
池 化 层 (Pooling Layer) 是 一 种 向 下 采样 的 形式 .在 神经 网 络 中 也 称 为 子 采样 层 (Sub- 
sampling Layer) ,一 般 使 用 最 大 池 化 (Max Pooling) 将 特征 区 域 中 的 最 大 值 作为 新 的 抽象 区 
域 的 值 ,减少 数据 的 空间 大 小 ,所 以 参数 的 数量 和 运算 量 也 会 减少 ,减少 了 全 连接 的 数量 和 
复杂 度 。 这 一 理论 的 基础 是 特征 的 相对 位 置 比 具 体 的 实际 数值 或 位 置 更 加 重要 ,所 以 是 否 
应 用 池 化 层 需 要 依照 实际 需要 进行 分 析 , 否 则 会 影响 模型 的 准确 度 。 
4) 全 连接 层 
卷 积 层 得 到 的 每 张 特征 图 表示 的 是 输入 信号 的 一 种 特征 ,而 它 的 层 数 越 高 ,表示 这 一 特 
征 越 抽 象 , 为 了 综合 低层 的 各 个 卷 积 层 特征 ,就 加 上 全 连接 层 (Full Connect Layer) 将 这 些 
特征 结合 到 一 起 ,然后 用 Softmax 等 进行 分 类 或 逻辑 回归 分 析 。 
5) 输出 层 
输出 层 (Output Layer) 的 一 项 任务 是 进行 反 向 传播 ,依次 向 后 进行 梯度 传递 ,计算 相应 
的 损失 函数 ,并 重新 更 新 权重 值 。 在 训练 过 程 中 可 以 采用 Dropout 避免 训 练 过 程 产生 过 拟 
合 。 输 入 层 的 结构 与 传统 神经 网 络 结构 相同 .是 基于 上 一 全 连接 层 的 结果 进行 类 别 判 别 。 
在 实际 应 用 中 具有 多 少 个 标签 分 类 ,在 输出 结果 时 就 设置 多 少 个 输出 。 
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2. 循环 神经 网 络 

循环 神经 网 络 分 为 时 间 循 环 神 经 网 络 和 结构 循环 神经 网 络 , 通 常 指 的 是 前 一 种 ,之 所 以 
是 “循环 ”, 是 因为 其 中 隐藏 层 节点 的 输出 不 仅 取决 于 当前 输入 值 ,还 与 上 一 次 的 输入 相关 ， 
即 节点 的 输出 可 以 指向 自身 ,进行 循环 递归 运算 ,在 处 理 时 间 序 列 相关 的 场景 时 效果 明显 ， 
因为 每 个 观察 样本 都 与 之 前 的 样本 关系 密切 ,所 以 其 在 分 析 语 音 、 视 频 . 天 气 预报 、 股 票 走势 
预测 等 方面 具有 突出 优势 。 

RNN 存在 的 问题 是 在 处 理 长 时 间 关联 关系 时 ,要 记 住所 有 的 历史 样本 参数 ,复杂 度 增 
加 ,容易 导致 权重 参数 出 现 梯 度 消 失 或 梯度 爆炸 。 为 避免 此 类 问题 ,一 般 采 用 长 短 时 记忆 
(Long Short Term Memory,LSTM) 网 络 来 处 理 , 原 理 是 其 神经 元 的 结构 与 传统 神经 元 不 
同 , 称 为 记忆 细胞 (Cell State) ,其 包括 了 输入 门 (input gate)、 遗 忘 门 (forget gate) .输出 门 
(output gage) ,在 循环 过 程 中 ,元 胞 状态 接受 输入 数据 的 影响 ,在 遗忘 门 里 更 新 记忆 状态 ， 
并 将 其 通过 输出 门 进 行 输 出 ,其 关键 在 于 应 用 遗忘 门将 重要 的 因素 进行 记录 ,减少 了 记忆 的 
元 素数 量 ,使 得 在 模型 训练 时 具有 较 强 的 梯度 收敛 性 。 

3. 生成 对 抗 网 络 

传统 的 深度 学 习 通 常 需要 大 量 的 样本 进行 训练 ,如 果 是 进行 监督 式 学 习 的 方法 ,需要 人 
工 进行 样本 标记 ,费时 费力 。 为 了 解决 这 一 问题 ,可 以 通过 自动 编码 器 (Auto Encoder) 、 受 
限 玻 尔 效 曼 机 (Restricted Boltzmann Machine, RBM), 深 度 置 信和 网 络 (Deep Belief 
Network,DBN) 等 方法 实现 非 监督 式 学 习 样 本 特征 ,另外 一 种 方法 是 使 用 生成 对 抗 网 络 , 它 
解决 的 问题 是 从 现 有 样本 中 学 习 并 创建 出 新 的 样本 ,按照 人 类 对 事物 的 学 习 过 程 , 逐 渐 总 结 
规律 ,而 并 非 大 数据 量 地 训练 ,所 以 在 新 的 任务 处 理 中 ,只 需要 少量 的 标记 样本 就 可 以 训练 
出 高 效 的 分 类 器 。 

GAN 网 络 中 需要 两 个 神经 网 络 : 一 个 是 生成 网 络 G, 另 外 一 个 是 区 分 网 络 D ,前 者 的 
主要 任务 是 生成 新 的 样本 ,后 者 的 主要 任务 是 对 样本 进行 区 分 ,首先 训练 区 分 网 络 D, 从 而 
提高 模型 的 真 假 分 辨 能 力 ,然后 训练 生成 网 络 G, 提 高 其 欺骗 能 力 , 生 成 接近 于 真实 的 训练 
样本 。 两 种 网 络 之 间 形 成 对 抗 关系 ,都 极力 优化 自己 的 性 能 ,直到 达到 一 种 动态 平衡 状态 ， 
使 得 区 分 网 络 难 以 区 分 (准确 率 为 50%)。 

在 两 种 网 络 训练 过 程 中 需要 注意 ,在 某 些 时 候 ,G 网 络 容易 简单 生成 与 训练 集中 样本 相 
差 不 大 的 新 样本 ,导致 D 网 络 无 法 区 分 ,实际 上 ,新 样本 中 种 类 的 数量 不 多 ,为 了 避免 此 类 
过 拟 合 ,可 以 在 D 网 中 计算 样本 间 的 相似 度 ,并 作为 特征 传人 下 一 层 中 ,这 样 就 可 以 识别 出 
假 的 样本 ,从 而 进行 惩罚 ,促使 G 网 络 生成 多 种 新 样本 。 

另外 ,如 果 D 网 络 过 于 强势 ,可 能 会 导致 G 网 络 中 参数 梯度 较 大 ,无 法 有 效 收 敛 , 可 以 
在 训练 过 程 中 调 低 训练 样本 的 概率 目标 ,这 种 方法 也 称 为 单 边 标签 平滑 。 


11.2 音频 质量 评价 
随 着 移动 互联 网 的 兴起 和 自 媒体 音频 服务 的 流行 ,人 们 对 媒体 的 质量 要 求 越 来 越 高 ,并 


且 要 求 对 音频 质量 评价 快速 和 稳定 。 本 节 将 从 音频 质量 的 评价 标准 和 影响 因素 出 发 ,应 用 
卷 积 神经 网 络 模 型 对 音频 质量 进行 评价 ,将 低层 音频 特征 、 梅 尔 倒 频谱 系数 、 语 谱 图 等 特征 
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信和 号 作为 输入 参数 传人 卷 积 神经 网 络 , 应 用 感知 模型 对 信号 进行 卷 积 、 池 化 等 综合 计算 并 映 
射 为 音频 质量 分 类 结果 。 

为 了 验证 卷 积 神经 网 络 的 应 用 效果 ,使 用 Deeplearning4j 作为 深度 学 习 计 算 框架 。 另 
外 ,音频 特征 提取 采用 librosa 来 对 音频 特征 进行 提取 ,并 将 提取 到 的 结果 进一步 处 理 为 图 
片 格式 ,作为 输入 传递 到 卷 积 神经 网 络 中 进行 实验 。 

实验 需要 安装 的 基本 软件 为 : Java 为 64 位 ,上 且 版 本 为 1.7 以 上 ; Apache Maven, 主要 
用 于 依赖 包 的 自动 管理 ; Intelli IDEA 或 者 Eclipse, 推 荐 使 用 前 者 ; Git, 用 于 代码 管理 ; 
Python 环境 ,版 本 为 2. 7, 需 要 安装 pip 支持 ,用 于 安装 librosa 库 。 除 此 之 外 ,还 要 安装 
numpy、matplotlib、scipy、sklearn、PIL; ffmpeg, Mac OSX 可 使 用 homebrew 安装 ,Windows 用 户 


11.2.1 音频 样本 及 特征 预 处 理 


从 国内 某 自 媒体 平台 中 通过 人 工 听 评 的 方式 ,随机 选择 200 个 音频 作为 音频 集 ,并 按 高 
质量 一 般 质量 \ 低 质量 分 为 3 类 ,然后 将 其 按 4 : 1 的 比例 分 为 两 部 分 ,20% 的 音频 作为 验 
证 集 音频 ,80% 的 音频 作为 训练 音频 库 。 

对 音频 特征 进行 预 处 理 包括 特征 提取 和 特征 选择 。 与 音频 质量 相关 的 特征 主要 有 音频 
低层 特征 .MFCC 特征 、 心 理 声 学 特征 。 音 频 特 征 进行 提取 并 将 其 应 用 到 模型 中 进行 验证 ， 
并 确认 选取 特征 。 

音频 质量 客观 评价 分 析 过 程 中 ,需要 确认 选择 哪些 指标 进行 模式 学 习 , 选 择 指标 的 过 程 
就 是 特征 提取 的 过 程 ,包括 音频 低层 特征 、MFCC 特征 ,心理 声学 特征 ,对 提取 的 MFCC、 
Spectrogram 等 特征 存储 为 图 片 格式 。 

1. 低层 特征 

音频 低层 特征 是 可 以 直接 通过 时 域 波形 或 频 域 信号 中 对 每 一 音频 帧 进行 加 窗 运 算 获 
得 ,这 些 特 征 已 经 广泛 应 用 于 音频 处 理应 用 中 ,如 语音 识别 .音乐 分 类 ,甚至 应 用 于 通过 分 析 
设备 运行 的 声音 来 识别 其 故障 种 类 ,在 音频 质量 评价 中 也 将 引用 特征 进行 基本 的 音频 质量 
分 析 。 

使 用 librosa 对 音频 、 低 层 特征 RMSE 进行 提取 ,具体 示例 代码 如 下 。 如 果 要 提取 其 他 
特征 ,可 以 选择 对 应 librosa. feature 库 中 的 特征 ,如 将 librosa. feature. rmse 中 的 rmse 替换 
为 spectral_centroid spectral_bandwidth ,zero_crossing_rate 等 ,来 提取 频谱 质心 .频谱 带 
宽 , 过 零 率 等 特征 。 

import librosa 

import librosa. display 

y,sr = librosa. load('. /example. mp3') 

librosa. feature. rmse(y= Y) 

S,phase = librosa. magphase(librosa. stft(y)) 

rms = librosa. feature. rmse(S= 5S) 

由 于 低层 的 特征 为 一 维特 征 , 即 线性 特征 ,所 以 这 部 分 内 容 进 入 卷 积 神经 网 络 时 ,需要 
对 输入 层 数据 进行 预 处 理 , 将 高 度 设置 为 1, 并 且 卷 积 和 池 化 时 其 高 度 均 须 固定 为 1, 相当 于 
卷 积 操作 和 池 化 操作 过 程 中 是 在 左右 的 方向 上 进行 ,没有 上 下 移动 。 
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2. MFCC 特征 


梅 尔 频率 倒 频 谱 分 析 是 基于 人 类 的 听觉 感知 设计 的 ,人 耳 对 低频 部 分 的 音频 比较 敏锐 ， 
核心 思想 是 通过 滤波 器 组 的 方式 模拟 人 耳 对 不 同 频率 音频 的 感知 ,将 频谱 从 线性 分 布 转换 
为 非 线 性 分 布 ,具体 转换 方法 如 式 (11. 1) 所 示 。 梅 尔 频率 倒 谱 系数 (MFCC) 在 梅 尔 频 率 的 
尺度 上 进行 频谱 分 析 ,经 过 倒 谱 分 析 之 后 ,得 到 的 结果 系数 即 为 这 一 帧 音频 的 特征 。 一 段 音 
频 的 倒 谱系 数 形成 数组 结果 序列 ,通过 对 这 些 倒 谱 向 量 进行 分 析 , 就 可 以 获得 音频 的 质量 。 


加 过 
Mel(/) = 2595xig( + 而 生肖 


式 中 的 /为 输入 音频 实际 频率 ,单位 为 Hz。 提 取 过 程 中 首先 对 输入 音频 进行 预 加 重 、 分 帧 
和 分 窗 操作 ,窗口 大 小 为 512, 然 后 对 每 个 窗口 运行 FFT 运算 得 到 频谱 ,将 结果 取 绝 对 值 或 
平方 值 后 进行 Mel 滤波 运算 得 到 Mel 频谱 ,对 滤波 器 结果 取 对 数 后 进行 离散 余弦 变换 ,最 
后 取 系 数 作为 MFCC 特征 向 量 。 经 过 MFCC 计算 后 可 以 获得 的 音频 特征 为 39 个 ,其 中 包 
括 了 12 个 倒 谱 特 征 系数 ,12 个 A 倒 谱 特征 系数 ,12 个 AA 倒 谱 特征 系数 ,1 个 能 量 系数 ,1 
个 A 能 量 系 数 ,1 个 AA 能 量 系 数 。 

应 用 librosa 库 可 以 方便 地 提取 上 述 特征 ,具体 代码 如 下 ,其 中 窗口 大 小 为 512 ,而 特征 
数 为 39 个 。 

ysr = librosa. load(srcFile) 

Y_harmonic,y_percussive = librosa. effects. hpss(y) 


tempo, beat_frames = librosa.beat.beat track(y=y percussive, sr = sr) 
mfcc = librosa. feature.mfcc(y= y,sr= sr,hop_length= 512,n mfcc = 39) 


3. 心理 声学 特征 

心理 声学 特征 描绘 的 主要 是 人 的 主观 感受 ,由 于 人 耳 的 听觉 特性 和 机 制 目 前 的 研究 尚 
未 完全 解释 清楚 ,特别 是 受到 掩蔽 , 非 线 性 、 双 耳 效 应 等 影响 ,所 以 目前 借鉴 的 是 常用 的 声学 
模型 特征 ,主要 从 响 度 、 音 调 、 音 色 的 角度 进行 特征 提取 ,在 本 系统 中 采用 以 下 心理 声学 特 
征 : 音频 响 度 (Loudness) 代 表 了 音频 能 量 的 强 弱 变 化 ,与 时 域 波 形 的 振幅 大 小 成 正比 ; 尖 
锐 度 (Sharpness) 反 映 的 是 音频 是 否 刺耳 及 其 程度 ,一 般 以 高 频 部 分 在 整个 音频 频谱 中 点 的 
比例 来 衡量 。 

使 用 librosa 库 提取 色调 质心 特征 (tonnetz) ,代码 如 下 ,还 可 以 对 音频 色 度 特征 (chrome) 进 
行 提取 ,提取 方法 为 librosa. feature. chroma。 


ysr = librosa. load(srcFile) 
tonnetz = librosa. feature.tonnetz(Y=Y sr= sr) 


上 述 3 个 特征 经 过 处 理 后 均 保存 为 图 片 格式 ,处 理 方法 是 应 用 python 中 的 Matplotlib 
库 进行 图 片 保 存 , 其 结果 如 图 11. 2 所 示 。 

由 于 保存 后 的 图 片 含有 坐标 值 和 标题 等 文字 说 明 ,不 利于 卷 积 计算 ,所 以 在 保存 前 将 坐 
标 禁 用 ,同时 , 缩 进 3 个 像素 进行 裁剪 ,去 除 图 片 的 边框 ,完整 的 代码 如 下 。 

fig,ax = plt. subplots() 


plt. axis( 'off') 
librosa. display. specshow(mfcc, sr = sr) 
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图 11.2 频谱 质心 .MEFCC , 语 谱 图 .Mel Spectrogram 等 特征 


filename = os. path. splitext(basename(srcFile))[0] 

filename = targetFolder + filename + ".png" 

print('Saving output to '+ filename) 

extent = ax.get window extent().transformed(fig. dpi_scale trans. inverted()) 
plt. savefig(filename, bbox_inches = extent, pad_inches = 0) 

plt. close() 

img = Image.open(filename) 

rect = (3,3, img.width— 3,img. height — 3) 

img. crop(rect). save(filename) 

img. close() 


11.2.2 音频 特征 选择 
为 了 比较 相同 网 络 结构 下 音频 特征 的 区 分 度 ,为 了 减 小 网 络 结构 带 来 的 影响 ,都 使 用 结 


构 相 同 的 LeNet 网 络 模型 ,比较 Spectrogram、CQT、MFCC、 色 调 质 心 特征 (Tonnetz)、 频 谱 
对 比 度 (Contrast) 音频 节奏 特征 (Tempo) 对 音频 质量 分 类 的 区 分 度 。 


网 络 的 随机 数 种 子 设置 为 42 ,训练 集 和 测试 集 按照 8 : 2 的 比例 分 配 样本 ,每 批 样本 数 


为 40 ,训练 周期 (epoch) 为 10, 输 入 图 像 的 大 小 处 理 为 200 像素 X200 像素 ,3 通道 的 图 片 ， 
网 络 中 L2 参数 为 0.0001 ,激活 函数 为 RELU ,学习 率 为 0.0001, 网 络 初始 化 方法 为 Xavier， 





采 / 








随机 梯度 下 降 (SGD) 进 行 优化 。 第 一 层 卷 积 层 通道 为 3, 输出 为 50、 卷 积 核 为 5X5、 步 





长 为 1X1; 第 二 层 为 最 大 化 池 化 层 , 核 大 小 为 2X2; 第 三 层 卷 积 层 输出 100、 卷 积 核 为 5X5、 
步 长 为 1X1; 第 四 层 为 最 大 化 池 化 层 , 核 大 小 为 2Xx2; 第 五 层 全 连接 层 输出 500; 第 六 层 输 
出 层 损失 函数 为 负 的 Log 似 然 函 数 (negative log-likelihood) ,输出 个 数 为 分 类 个 数 3 ,输出 
层 的 激活 函数 为 Softmax。 网 络 结构 定义 相关 的 代码 如 下 : 


MultiLayerConfiguration conf = new NeuralNetConfiguration. Builder() 
.seed( seed) 
. iterations( iterations) 
.regularization(true).12(0.0001) // tried 0.0001,0.0005 
.activation(Activation. RELU) 
.learningRate(0.0001) // tried 0.00001,0.00005,0.000001 
.weightInit(WeightInit. XAVIER) 
.optimizationAlgo( OptimizationAlgorithm. STOCHASTIC GRADIENT_ DESCENT) 
. updater (Updater. NESTEROVS) . momentum(0.9) 
.list() 
. layer(0, convInit("cnn1", channels, 50, new int[ ]{5,5},new int[ ]{1,1},new int[ ]{0,0},0)) 
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.layer(1,maxPool("maxpooll" ,new int[]{2,2})) 
. layer(2, conv5x5("cnn2", 100, new int[]{5,5},new int[]{1,1},0)) 
. layer(3, maxPool ("maxool2", new int[]{2,2})) 
. layer(4, new DenseLayer. Builder().nOut(500). build()) 
.layer(5, new OutputLayer. Builder(LossFunctions. LossFunction. NEGATIVELOGLIKELIHOOD) 
.nOut(numLabels) 
.activation(Activation. SOFTMAX) 
.build()) 
.backprop(true). pretrain(false) 
. setInputTYpe( InputType. convolutional (height, width, channels)) 
.build(); 


各 音频 特征 的 比较 结果 见 表 11. 1。 
表 11.1 相同 卷 积 神经 网 络 不 同音 频 特征 表现 
































音频 特征 准确 率 精确 率 召回 率 F1 分 值 
MFCC 0. 4286 0.4583 0. 5000 0. 4783 
CQT 0. 6250 0. 8000 0.6667 0.7273 
Spectrogram 0.6667 0.7500 0. 6667 0.7059 
Tonnetz 0.2857 0.2917 0.3333 0.3111 
Contrast 0.7143 0.7778 0.7778 0.7778 
Tempo 0.5714 0.5833 0.5556 0. 5691 


从 表 11. 1 中 可 以 看 出 , 语 谱 图 特征 具有 较 高 的 区 分 度 , 语 谱 图 中 信息 量 相对 较 复杂 , 比 
较 适合 卷 积 神经 网 络 处 理 和 分 析 , 而 MFCC 虽然 包括 了 39 维 的 音频 特征 ,但 是 其 图 形 显示 
过 于 简单 ,并 且 各 维度 之 间 的 关系 相对 独立 ,以 二 维 的 方式 进行 分 析 , 提 取 的 特征 并 不 明显 。 
CQT 和 Contrast 音频 特征 具有 二 维 图 片 的 关联 特性 ,含有 的 信息 与 语 谱 图 类 似 ,其 准确 
率 、F1 分 值 等 数据 比 语 谱 图 略 低 。 所 以 ,在 卷 积 神经 网 络 模型 的 特征 选择 中 ,使 用 
Spectrogram、Contrast、CQT 作为 模型 的 输入 特征 。 


11.2.3 卷 积 神经 网 络 模型 训练 


对 音频 进行 特征 提取 并 应 用 到 卷 积 神经 网 络 中 ,通过 网 络 模型 的 机 器 学 习 , 并 结合 不 同 
质量 音频 的 实际 质量 ,对 网 络 中 的 参数 进行 人 工 微调 ,使 其 在 训练 音频 集中 得 到 的 评分 结果 
与 实际 人 工 听 评 结果 尽 可 能 吻合 。 

基于 模型 的 网 络 结构 中 含有 3 个 相对 独立 的 子 网 络 ,所 以 在 模型 训练 过 程 中 采用 先 子 
网 络 后 总 网 络 的 训练 过 程 , 即 先 对 语 谱 图 .Tempo 等 特征 、 低 层 特征 图 进行 训练 ,调整 其 网 
络 参 数 ,使 其 结果 达到 最 优 ,然后 调整 子 网 络 的 输出 权重 。 下 面 的 代码 使 用 UIServer 对 训 
练 过 程 中 的 模型 进行 可 视 化 ,并 将 训练 后 的 模型 保存 在 指定 的 文件 。 


StatsStorage statsStorage = new FileStatsStoragel(statsFile); 

int listenerFrequency = 1; 

network. setListeners(new StatsListener(statsStorage, listenerFrequency)); 
UIServer uiServer = UIServer.getInstance(); 

uiServer. attach( statsStorage); 
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训练 过 程 启动 后 ,可 以 在 浏览 器 中 输入 http://localhost:9000/ 查 看 模型 结构 及 各 项 参 
数 指标 的 图 形 显示 。 图 11. 3 是 网 络 模型 在 训练 过 程 中 对 音频 质量 进行 评分 的 结果 和 迭代 
过 程 ,如 果 模 型 中 参数 设置 失效 或 不 合理 ,将 容易 产生 梯度 消失 或 学 习 率 过 低 等 问题 ,从 而 
导致 最 终 的 分 类 结果 准确 度 很 差 。 由 于 每 次 训练 的 时 间 大 约 在 1h, 通 过 可 视 化 的 界面 可 以 
提前 发 现 梯度 消失 等 问题 ,直接 中 止 训 练 过 程 ,重新 进行 参数 调整 ,这 样 可 提高 模型 训练 的 
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图 11.3 卷 积 神经 网 络 模型 评分 与 迭代 过 程 
图 11.4 是 语 谱 图 子 网 络 在 训练 过 程 中 的 各 权重 的 更 新 值 与 参数 值 之 比 。 从 图 11. 4 中 
可 以 看 出 , 随 着 迭代 次 数 的 增加 ,网 络 中 的 权重 更 新 值 与 参数 的 比值 变化 较为 剧烈 ,特别 是 
5W 对 应 的 第 5 层 (全 连接 层 ) 的 比率 变化 曲线 ,表示 模型 结构 不 稳定 ,学 习 不 到 有 用 特征 。 
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图 11.4 语 谱 图 子 网 络 在 训练 过 程 中 的 各 权重 的 更 新 值 与 参数 值 之 比 
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在 Web 可 视 化 界面 的 导航 中 单 击 “模型 ", 进 入 模型 结构 和 参数 查看 页 面 ,如 图 11.5 所 
示 , 左 上 侧 是 模型 的 结构 , 单 击 某 个 节点 将 显示 此 层 的 详情 和 对 应 各 参数 的 可 视 化 图 表 结 
果 。 图 11. 5 中 为 卷 积 层 1 对 应 的 信息 ,可 以 看 到 其 内 核 大 小 为 5 像素 X5 像素 , 步 长 为 1 
像素 X1 像素 ,无 填充 ,激活 函数 为 relu, 还 可 以 看 到 参数 更 新 的 比率 幅度 和 激活 函数 结果 
变化 情况 ,最 右 下 方 是 学 习 率 的 变化 情况 ,模型 中 此 参数 为 固定 值 ,所 以 其 值 为 直线 ,在 其 他 


应 用 中 可 以 指定 学 习 率 为 动态 值 。 
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图 11.5 卷 积 网 络 结构 及 参数 可 视 化 
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11.2.4 模型 参数 调 优 


卷 积 神经 网 络 模型 中 的 主要 可 调 参数 为 : 输入 层 特征 图 片 处 理 的 长 度 (Height) 和 宽度 
(Width)、 输 入 层 图 片 的 通道 数 (Channel) 动量 (Momentum) 参 数 . 迁 代 次 数 (Iterations)、 
正则 化 参数 L2 学习 率 (Learning Rate) 、 卷 积 层 卷 积 核 (Kernel) 大 小 、 卷 积 层 输入 输出 、 步 
长 (Stride) ,填充 (Padding) 、 偏 移 (Bias) 、 池 化 层 大 小 (Kernel) ,全 连接 层 输出 数量 、 激 活 函 
数 (Activation) 。 另 外 ,针对 不 同 的 网 络 结构 进行 调整 ,如 层 数 进行 增删 等 ,对 模型 进行 性 能 
调 优 。 

音频 评价 卷 积 模型 的 训练 过 程 采用 随机 梯度 下 降 (Stochastic Gradient Descent, SGD) 
的 方式 进行 迭代 参数 更 新 ,迭代 周期 次 数 为 50 次 。 每 个 迭代 周期 是 指 在 模型 训练 过 程 中 完 
整地 遍历 一 次 训练 集 ,从 而 使 模型 调整 参数 。 首 先 从 训练 音频 集中 提取 所 有 音频 ,对 音频 进 
行 特征 提取 操作 ,提取 语 谱 图 特征 ,提取 MFCC 特征 并 存储 为 png 图 片 格式 , 另 将 低层 特征 
存储 为 csv 文本 格式 。 

输入 层 的 特征 图 片 尺寸 为 100 像素 X100 像素 时 , 比 200 像素 X200 像素 的 训练 时 间 相 
对 较 短 ,但 是 准确 率 下 降 , 而 长 宽 的 像素 越 大 ,需要 的 硬件 配置 也 越 高 ,特征 图 片 大 小 超过 
250 像素 X250 像素 之 后 ,模型 的 参数 变 多 ,模型 文件 变 大 ,对 准确 率 改进 有 限 。 

通过 对 输入 的 特征 图 片 进行 转换 增加 训练 样本 数量 ,使 用 翻转 变换 、 随 机 翻转 变换 、 扭 
曲 变换 .颜色 转换 变换 对 特征 图 进行 处 理 , 每 执行 一 次 变换 ,重新 训练 50 个 迭代 周期 次 数 。 
经 过 实验 对 比 , 发 现 增加 颜色 变换 操作 后 ,模型 的 训练 时 间 增 长 ,而 分 类 准确 率 和 精确 率 反 
而 下 降 ,说明 在 训练 过 程 中 并 不 需要 颜色 转换 变换 ,刻意 增加 参数 不 一 定 效果 更 好 。 

基于 LeNet 网 络 对 语 谱 图 进行 训练 ,在 原 结构 的 全 连接 层 之 前 增加 两 个 层 : 卷 积 层 ( 输 
出 个 数 为 500, 步 长 为 5 像素 Xx5 像素 ,填充 1 像素 X1 像素 ) 和 池 化 层 ( 核 大 小 为 2 像素 六 2 
像素 ) ,模型 的 效果 不 但 没有 提升 ,反而 有 所 下 降 。 说 明 单 纯 增 加 层 数 对 模型 优化 没有 太 多 
帮助 。 

激活 函数 随时 间 变 化 的 曲线 可 用 于 检验 激活 函数 的 消失 或 膨胀 。 理 想 情况 下 ,曲线 应 
该 随 着 时 间 变 化 越 来 越 稳定 ,其 标准 差 的 取 值 范围 为 0.5 一 2. 0, 如 果 严 重 超过 这 个 范围 ,说 
明 出 现 了 权重 值 初始 化 不 合理 .正则 化 过 度 或 数据 标准 化 不 足 等 问题 :也 有 可 能 是 学 习 率 设 
置 不 当 。 

从 模型 训练 过 程 的 可 视 化 可 以 看 出 模型 中 更 新 器 的 更 新 模式 选择 是 否 合理 ,或 者 模型 
参数 设置 是 否 合适 。 更 新 值 与 参数 的 比例 图 可 用 于 设置 学 习 率 ,一 般 的 比例 应 该 在 0. 001， 
即 在 图 中 的 坐标 系 下 应 该 在 一 3.0 附近 ,如 果 此 比例 在 训练 迭代 过 程 中 出 现 了 大 幅 上 升 ,说 
明 发 生 了 梯度 膨胀 。 

将 图 片 等 特征 作为 输入 层 信号 传人 卷 积 神经 网 络 模型 中 ,并 对 模型 进行 参数 修改 ,对 训 
练 后 的 模型 使 用 验证 集 进行 验证 ,对 模型 的 性 能 进行 验证 ,并 输出 实际 结果 和 预测 结果 的 对 
比 。 模 型 的 性 能 指标 包括 模型 准确 率 (Accuracy) 、 精 确 率 (Precision)、 召 回 率 (Recall)、F1 
分 值 (Fl1 Score) 。 如 果 分 值 与 实际 人 工 听 评 结果 值 相差 过 大 或 模型 的 性 能 指标 过 低 , 则 执 
行 惩罚 ,以 修正 网 络 参数 ,重复 多 次 ,直到 分 值 与 实际 人 工 听 评 值 接近 一 致 或 模型 性 能 指标 
超过 80%。 

经 过 对 模型 进行 参数 调整 和 迭代 训练 ,并 在 训练 过 程 中 对 卷 积 神经 网 的 层 数 和 卷 积 核 
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大 小 进行 调整 , 语 谱 图 子 网 络 和 Tempo 子 网 络 的 层 数 为 7 层 , 低 层 特征 子 网 络 的 层 数 为 
5 层 ,训练 总 参数 最 高 达到 5 131 404 个 ,其 中 语 谱 图 的 区 分 度 最 高 ,得 到 准确 率 为 87. 5%、 
精确 率 为 91. 67% 、F1 分 值 为 89. 53% 的 卷 积 神经 网 络 模型 子 网 络 模型 。 在 调整 参数 过 程 
中 发 现 , 在 训练 样本 不 变 的 情况 下 随 着 模型 层 数 的 增加 .训练 时 间 大 幅 增 加 ,但 是 模型 的 精 
度 并 不 升 高 ,反而 有 所 下 降 。 


11.3 性 能 验证 


将 卷 积 神经 网 络 模型 算法 与 不 同 的 分 类 算法 进行 效果 比较 ,由 于 线性 支持 向 量 机 分 类 
算法 LinearSVC 是 线性 SVM 算法 的 一 种 ,并 且 在 分 类 效果 上 和 较 优 秀 ,而 k 近邻 (KNN) 在 
机 器 学 习 算 法 中 也 具有 简单 高 效 的 特点 ,所 以 应 用 LeNet 网 络 的 卷 积 神经 网 络 模型 算法 与 
KNN 算法 ,LinearSVC 进行 分 类 效果 对 比 ,代码 如 下 : 


dataImages = np.array(inputImages) 

labels = np.array(inputLabels) 

(trainImgs, testImgs, trainLabel, testLabel) = train_ test_spl 让 ( dataImages, labels, test_size = 
0.20,random state = 42) 

print("Training model...") 

modelKNN = KNeighborsClassifier(n neighbors = args["neighbors"],n jobs= 4) 

modelKNN. fit(trainImgs, trainLabel) 

acc = modelKNN. score(testImgs, testLabel) 

print("[INFO] k— NN model accuracy: {:.4f}".format(acc)) 

labelList = LabelEncoder() 

labels = labelList.fit transform(labels) 

print("[INFO] Evaluating k — NN model...") 

predictions = model.predict(testImgs) 

print(classification report(testLabel, predictions, target names= labelList.classes )) 
modelSVC = LinearSVC() 

modelSVC. fit(trainImgs, trainLabel) 

acc = modelSVC. score(testImgs, testLabel) 

print("[INFO] linearSVC accuracy: {:.4f} %".format(acc)) 

print("[INFO] Evaluating linearSVC model...") 

predictions = modelSVC.predict(testImgs) 

print(classification report(testLabel, predictions, target_names = labelList. classes_)) 


在 对 比 实验 过 程 中 ,分 别 设置 KNN 算法 中 的 k 值 对 其 进行 优化 ,选取 其 中 使 KNN 算 
法 取得 较 高 评估 效果 的 & 值 作为 最 终 参 数值 ,并 记录 算法 的 分 类 表现 。KNN 和 LinearSVC 
算法 由 算法 库 sklearn 提供 ,集成 于 OpenCV-Python 库 中 . 供 Python 代码 调用 。 对 相同 音 
频 训 练 集 和 测试 库 进 行 特 征 提取 后 ,将 其 应 用 于 不 同 的 算法 中 进行 分 训练 和 评估 ,代码 
如 下 : 

le = LabelEncoder() 

labels = le.fit transform(labels) 

print("[INFO] constructing training/testing split...") 

(trainData, testData, trainLabels, testLabels) = train test split( 

np.array(data), labels, test_ size= 0.25,random state= 42) 


print("[INFO] training Linear SVM classifier...") 
model = LinearSVC() 


249 











数据 挖掘 实用 案例 分 析 














model. fit(trainData, trainLabels) 

print("[INFO] evaluating classifier...") 

predictions = model.predict(testData) 

print(classification report(testLabels, predictions, target_ names = le.classes )) 

将 得 到 的 分 类 评估 结果 与 卷 积 神经 网 络 模 型 的 结果 进行 对 比 ,如 图 11. 6 所 示 。 由 于 卷 
积 神经 网 络 评分 模型 中 主要 采用 Spectrogram 和 CQT 音频 特征 作为 模型 输入 ,所 以 本 实验 
中 也 采用 上 述 两 种 音频 特征 的 图 片 列表 作为 各 算法 的 输入 信号 。 
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图 11.6 卷 积 神经 网 络 与 其 他 分 类 算法 效果 比较 


从 结果 可 以 看 到 , 卷 积 神经 网 络 算法 在 Spectrogram 和 CQT 特征 上 的 表现 要 优 于 KNN 
和 LinearSVC 算法 ,但 结果 并 不 明显 ,这 可 能 与 音频 的 样本 数 较 少 有 关 , 而 卷 积 神经 网 络 与 
其 他 分 类 算法 相 比 ,对 异常 特征 值 的 过 滤 能 力 较 差 , 在 小 样本 的 测试 中 并 不 能 展现 其 深度 学 
习 的 能 力 , 通 过 在 实际 系统 中 增加 音频 训练 的 样本 数量 和 动态 调用 音频 训练 库 , 可 以 将 其 与 
其 他 分 类 算法 的 差距 进一步 拉 大 ,表现 也 将 更 加 优秀 。 

模型 采用 了 音频 低层 特征 、Tempo 等 音频 特征 、 音 频 语 谱 图 作为 卷 积 神经 网 络 的 输入 
特征 ,采用 机 器 学 习 的 方式 从 音频 特征 中 抽取 特征 参数 ,经 过 反复 训练 和 调 优 ,逐步 与 实际 
的 人 工 听 评 结果 相 一 致 。 由 于 采用 的 音频 特征 数量 较 多 ,依据 传统 的 神经 网 络 原 理 , 其 运算 
量 较 大 ,而 卷 积 神经 网 络 具有 局 部 感知 .共享 权 值 等 优点 ,用 其 代替 传统 的 神经 网 络 ,不 仅 运 
算 量 又 减 , 而 且 音频 特征 并 未 消失 ,不 影响 特征 提取 和 音频 评价 结果 的 准确 性 。 

局 限于 训练 音频 库 的 训练 音频 数量 , 某 些 特征 并 不 明显 ,会 导致 模型 训练 无 法 达到 
90% 以 上 的 分 类 精度 ,为 了 弥补 这 一 缺陷 ,模型 中 参数 的 调整 除 在 模型 训练 过 程 中 进行 ,在 
模型 应 用 中 也 对 其 进行 修正 ,如果 发 现 有 评分 结果 失误 的 音频 , 则 将 其 重新 标记 评分 等 级 ， 
并 提交 至 训练 音频 库 中 ,定期 运行 模型 训练 程序 对 模型 进行 学 习 训 练 。 这 样 将 使 模型 的 精 
度 和 分 类 区 分 度 随 着 训练 音频 库 的 增长 而 不 断 提高 。 
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